[নিবন্ধনের লিংক] [কোর্সের মূল পাতা]
ভেদ ও এর পরিমাপসমূহ (Variability and its measures)
এনায়েতুর রহীম
এ পর্বে যা থাকছে
কোন ড্যাটায় সংখ্যাগুলো পরস্পরের থেকে কত কাছে বা কত দূরে অবস্থান করছে সেটা গুরুত্বপূর্ণ। ড্যাটায় সবগুলো সংখ্যা সাধারণত একই হয়না—ভিন্ন ভিন্ন হয়। ড্যাটাতে সংখ্যাগুলোর পারস্পরিক ভিন্নতাকে ভেদ (variability) বলে। কোন ড্যাটায় সবগুলো সংখ্যা যদি একই হয় তাহলে সেই ড্যাটার ভেদ শুন্য। অর্থাৎ ড্যাটায় কোন ভ্যারিয়েশন নেই। এ পর্বে আমরা ভ্যারিয়েশন বা ভেদ সম্পর্কে জানার চেষ্টা করবো।
পূর্বালোচনা
গত পর্বে আমরা কেন্দ্রীয় প্রবণতা ও এর পরিমাপসমূহ নিয়ে আলোচনা করেছিলাম। কেন্দ্রীয় প্রবণতার পরিমাপগুলো ছিল গড় (Mean), মধ্যক (Median) ও প্রচুরক (Mode)। ড্যাটাকে সামারাইজ করার জন্য কেন্দ্রীয় প্রবণতার এই পরিমাপগুলোকে ব্যবহার করা হয়।
ভ্যারিয়েশন বা ভেদ কী?
যেকোন ড্যাটার ক্ষেত্রে কেন্দ্রীয় প্রবণতার পরিমাপগুলো গুরুত্বপূর্ণ হলেও এসবের মাধ্যমে কোন ড্যাটার একটি দিক সম্পর্কে জানা যায়—যেটি হলো ড্যাটার কেন্দ্র কোথায় অবস্থিত সেটি। কিন্তু কেন্দ্রই সবকিছু নয়। ড্যাটাতে সংখ্যাগুলো পরস্পরে কত দূরে বা কত কাছে অবস্থান করছে সেটিও গুরুত্বপূর্ণ।
ভ্যারিয়েশন মানে ভিন্নতা। বাস্তব জীবনে ভিন্নতাই স্বাভাবিকতা। যেমন শ্রেনীকক্ষে যত ছাত্রছাত্রী আছে তাদের সবার উচ্চতা এক নয়, ভিন্ন ভিন্ন। পরিসংখ্যান পরিচিতি কোর্সে অংশগ্রহণকারী শিক্ষার্থীদের সবার বয়স একই নয়। তাদের বয়স আলাদা আলাদা। এরকম আরো উদাহরণ কল্পণা করা যায়। নিচের সেরকম কয়েকটি উদাহরণ দেয়া হলো—
১) দৌড় প্রতিযোগিতায় অংশগ্রহণকারীরা একই সময়ে একই স্থান থেকে একটি নির্দিষ্ট দুরত্বে অবস্থিত লক্ষ্যে পৌঁছার জন্য দৌড় শুরু করে। কিন্তু সবাই প্রথম হয়না। কেউ প্রথম হয়, কেউ হয় দ্বিতীয়, কেউ তৃতীয়, আর কেউ সবার পিছনে। দৌড় শুরুর স্থান থেকে অভীষ্ট লক্ষ্যে পৌঁছুতে যে সময় লাগবে সেটি যদি আমাদের ভ্যারিয়েবল বা চলক হয়, তাহলে আমরা যে ড্যাটা পাই তাতে সবগুলো সংখ্যা একই হয় না।
নিচের সারণিতে ১০০মিটার দৌড় প্রতিযোগীতার কাল্পণিক ড্যাটা দেখুন। দৌড় শেষ করতে যত সেকেন্ড সময় লেগেছে তা ছোট থেকে বড় আকারে সাজানো হয়েছে।
১ম | ২য় | ৩য় | ৪র্থ | ৫ম | ৬ষ্ঠ | ৭ম | ৮ম | ৯ম | ১০ম |
৯.১ | ৯.২ | ১০.১ | ১০.১ | ১০.৩ | ১০.৪ | ১০.৬ | ১১.০ | ১১.২ | ১১.৩ |
উপরের সারণিতে সবগুলো সংখ্যা একই নয়। কেবল মাত্র ৩য় এবং ৪র্থ সংখ্যা দুটি একই। আর বাকি সংখ্যাগুলো আলাদা আলাদা। অর্থাৎ সংখ্যাগুলোর মাঝে একটি থেকে অপরটির মধ্যে একটা দুরত্ব বা ব্যবধান রয়েছে। সংখ্যাগুলোর এই ভিন্নতাই ভেদ বা ভ্যারিয়েশন।
২) বাংলাদেশের মানুষের মাথাপিছু গড় আয় কত? কারো আয় অনেক বেশী আবার কারো কোন আয় নেই! এই মাথাপিছু আয়ের ভ্যারিয়েশন কত?
৩) এই কোর্সে অংশগ্রহণকারি শিক্ষার্থীদের বয়সের ভ্যারিয়েশন রয়েছে। কারো বয়স ২১ বছর আবার কারো বয়স ৩২ বছর।
ভ্যারিয়েশন কেন গুরুত্বপূর্ণ
ভ্যারিয়েশন কেন গুরুত্বপূর্ণ তা একটি উদাহরণের মাধ্যমে বোঝার চেষ্টা করি।
ধরা যাক একটি মাধ্যমিক বিদ্যালয়ে দশম শ্রেনীতে তিনটি শাখা রয়েছে। প্রতিটি শাখায় ছাত্র-ছাত্রীর সংখ্যা চল্লিশ (৪০) জন। মাধ্যমিক পরীক্ষার ফল প্রকাশের পর আমরা জানতে চাই কোন শাখার ছাত্র-ছাত্রীরা ভাল ফল করেছে। এজন্য প্রতিটি শাখার ছাত্র-ছাত্রীদের প্রাপ্ত জিপিএর গড় বের করা হল। দেখা গেল প্রতিটি শাখার গড় জিপিএ ৪.৭৫. তাহলে কোন শাখার ছাত্র-ছাত্রীরা ভাল ফল করেছে সেটা আমরা কিভাবে জানবো?
প্রকৌশলের একটি উদাহরণ চিন্তা করি।
ধরা যাক দুটি ভিন্ন ব্যান্ডের সিমেন্টের কমপ্রেসিভ স্ট্রেন্থ (MPa) এর তুলনা করা হবে। এজন্য প্রতিটি ব্যান্ডের সিমেন্টের ভিন্ন ভিন্ন মিক্সচার একটি নির্দিষ্ট সময় পর্যন্ত রেখে পরীক্ষাগারে স্ট্রেন্থ নির্ণয় করা হলো।ধরি ব্র্যান্ড দুটি হচ্ছে ‘ক’ ও ‘খ’।
ড্যাটাটি দেখতে এরকম হল।
মিক্সচার | ১ | ২ | ৩ | ৪ | ৫ | ৬ | ৭ | |
ব্র্যান্ড | ‘ক’ | ৬৮.৭৫ | ৭০.৩৭ | ৬৮.৩৩ | ৭৩.১৯ | ৭০.৬৬ | ৬৮.৩৬ | ৭০.৯৭ |
‘খ’ | ৭৩.৬৯ | ৭২.৮৮ | ৬৮.৪৭ | ৭৭.৫৬ | ৭১.৯৫ | ৬৬.৮৯ | ৫৮.৯৩ |
দুটি ব্র্যান্ডের ক্ষেত্রেই গড় কমপ্রেসিভ স্ট্রেন্থ একই, ৭০ (MPa)। কিন্তু আসলেই কি দুটি ব্রান্ডের সিমেন্টের মান একই রকম? তাদের মধ্যে কোন পার্থক্য নেই? আছে। দুটি ব্র্যান্ডের গড় কমপ্রেসিভ স্ট্রেন্থ একই হলেও এদের ভ্যারিয়েবিলিটির মধ্যে পার্থক্য আছে।
উপরের দুটি উদাহরণ থেকে আমরা দেখতে পাচ্ছি কেন্দ্রীয় প্রবণতার পরিমাপ দিয়ে ড্যাটার একটি দিক সম্পর্কে আমরা জানতে পারি—সেটি হচ্ছে ড্যাটার কেন্দ্র কোথায় অবস্থিত। কিন্তু দুটি ড্যাটার গড় এক হলেও তাদের মধ্যে ব্যাপক পার্থক্য থাকতে পারে। এই পার্থ্যক্যগুলোর অন্তরালে রয়েছে ড্যাটার ভেদ বা ভ্যারিয়েশন। দুটি ড্যাটার গড় এক হলেও ভেদের কারণে এদের মধ্যে পার্থক্য হয়ে যাবে।
এবারে আমরা সংক্ষেপে ভ্যারিয়েবিলিটির পরিমাপগুলো জানার চেষ্টা করবো।
ভেদের পরিমাপ সমূহ (Measures of variability)
ভেদের তিনটি পরিমাপ নিয়ে আমরা আলোচনা করবো। সেগুলি হল:
১) রেঞ্জ (range) বা বিস্তার
২) ভ্যারিয়্যান্স (variance) বা ভেদাঙ্ক
৩) স্ট্যান্ডার্ড ডেভিয়েশন (standard deviation) বা পরিমিত ব্যবধান
রেঞ্জ (Range) বা বিস্তার
ভেদের সবচেয়ে সহজ ও সাধারণ পরিমাপ হল রেঞ্জ। এর মাধ্যমে কোন ড্যাটার মধ্যে অবস্থিত সংখ্যাগুলোর মধ্যে সবচেয়ে ছোট এবং সবচেয়ে বড় সংখ্যাদ্বয়ের ব্যবধান নির্দেশ করা হয়। অর্থাৎ কোন ড্যাটার সবচেয়ে বড় সংখ্যা ও সবচেয়ে ছোট সংখ্যার মধ্যে যে ব্যবধান বা পার্থক্য তাকে বিস্তার বা রেঞ্জ বলে।
ধরা যাক এই কোর্সে অংশগ্রহণকারী দশ জন শিক্ষার্থীর বয়স নিম্নরূপ:
ড্যাটা-১
৩৩, ৩৫, ২৮, ২৫, ২৮, ৩৩, ২৬, ২৯, ৩২, ২৪
আরো ধরি, শিক্ষক ডট কম সাইটে অন্য আরেকটি কোর্সের দশ জন শিক্ষার্থীর বয়স নিম্নরূপ:
ড্যাটা-২
২২, ২৩, ৩২, ২১, ২৫, ৩০, ২৮, ২৫, ৩৪, ২১
স্পষ্টতই সবার বয়স এক নয়। বয়সের মধ্যে পার্থক্য রয়েছে। অর্থাৎ বয়সের মধ্যে ভ্যারিয়েশন আছে। এই পার্থক্য বা ভেদ বুঝতে পারার কনসেপ্টটি গুরুত্বপূর্ণ।
এই ড্যাটা থেকে আমরা রেঞ্জ বা বিস্তার বের করবো। এজন্য ড্যাটার সবচেয়ে বড় আর সবচেয়ে ছোট সংখ্যাদুটি বের করতে হবে।
ড্যাটা-১
বড় সংখ্যাটি হল ৩৫
ছোট সংখ্যাটি ২৫
ড্যাটার রেঞ্জ হল ৩৫-২৫ = ১০
ড্যাটা-২
বড় সংখ্যাটি হল ৩৪
ছোট সংখ্যাটি হল ২১
রেঞ্জ বা বিস্তার: ৩৪-২১ = ১৩
দুটি ড্যাটার ক্ষেত্রে আমরা দেখলাম ড্যাটা-২ এর শিক্ষার্থীদের বয়সের বিস্তার ড্যাটা-১ এর শিক্ষার্থীদের বয়সের বিস্তারের চেয়ে বেশী।
বিস্তার সহজেই বের করা যায় কিন্তু এর কিছু অসুবিধা আছে। প্রধান অসুবিধা হলো এটি চরম সংখ্যা বা এক্সট্রিম মান দ্বারা প্রভাবিত হয়। অর্থাৎ কোন সংখ্যা যদি খুব বড় বা খুব ছোট হয় (অনেকসময় ভুলক্রমে এমনটা হতে পারে) তাহলে বিস্তার খুব ছোট বা খুব বড় হয়ে যেতে পারে। সেক্ষেত্রে বিস্তার খুব একটা নির্ভরযোগ্য পরিমাপ নয়। ভেদের ভাল পরিমাপটি হলো ভেদাঙ্ক বা ভ্যারিয়্যান্স।
ভেদাঙ্ক (Variance)
ভেদাঙ্ক আসলে এক ধরনের গড়। চিত্রের মাধ্যমে আমরা বোঝার চেষ্টা করি। ধরি আমরা ড্যাটা-১ এ প্রাপ্ত ৩৩, ৩৫, ২৮, ২৫, ২৮, ৩৩, ২৬, ২৯, ৩২, ২৪ বয়সগুলোর ভেদাঙ্ক বের করবো। এর জন্য প্রথমেই আমাদের ড্যাটার গড় বের করতে হবে। আগের পর্বে আমরা গড় বের করা শিখেছি। তা থেকে আমরা ক্যালকুলেট করে পাই যে বয়সগুলোর গড় ২৯.৩ যা এই ড্যাটার কেন্দ্রীয় সংখ্যা।
এর পর নিচের চিত্রের বাম দিকে দেখুন ২৯.৩ কে কেন্দ্র করে বাকী সংখ্যাগুলো কেমন বৃত্তাকারে দাঁড়িয়ে আছে। এখন আমাদের এই কেন্দ্র অর্থাৎ গড় (২৯.৩) থেকে প্রতিটি সংখ্যা কত দূরে আছে সেটা বের করতে হবে। নিচের যেকোন একটি উপায়ে আমরা এই দুরত্ব বের করতে পারি:
সংখ্যা – (২৯.৩) অর্থাৎ প্রতিটি সংখ্যা থেকে গড় কে বিয়োগ দিয়ে
অথবা
২৯.৩ – সংখ্যা অর্থাৎ গড় থেকে প্রতিটি সংখ্যা বিয়োগ দিয়ে।
আমি গড় বা ২৯.৩ থেকে প্রতিটি সংখ্যা বিয়োগ দিয়ে চিত্রে দেখিয়েছি। যেমন, আমরা দেখতে পাচ্ছি ২৯.৩-৩৩ = -৩.৭ (নেগেটিভ ৩.৭). এভাবে গড় থেকে প্রত্যেকটি সংখ্যার দূরত্ব বের করে নিয়েছি। এর পর আমরা এই দূরত্বগুলোকে বর্গ করে সেই বর্গ সংখ্যাগুলোর গড় বের করেছি।
তাহলে আমরা দেখলাম ভ্যারিয়্যান্স হল কেন্দ্র বা গড় থেকে প্রতিটি সংখ্যার দূরত্বের বর্গের গড়।
এই যে ভ্যারিয়্যান্স বের করলাম তাকে আমরা জনসমষ্টির ভ্যারিয়্যান্স বা Population Variance বলবো। কিন্তু আমরা যখন নমুনা বা স্যাম্পল থেকে ভ্যারিয়্যান্স বের করি তখন উপরের সূত্রের হর (Denominator)-এ ১০ এর স্থলে আমরা ৯ ব্যবহার করবো। অর্থাৎ উপরের দশটি সংখ্যার নমুনা ভ্যারিয়্যান্স বা Sample Variance হবে
১২৮.১ ভাগ ৯ = ১৪.২৩
কেন আমরা দূরত্বগুলোর বর্গের গড় বের করতে গিয়ে হর (Denominator) থেকে ১ বিয়োগ করে দিলাম সেটা পরবর্তীতে জানার চেষ্টা করবো। আপাতত আমরা ভ্যারিয়্যান্সের কনসেপ্ট বোঝার চেষ্টা করলাম। এই কোর্সে ভ্যারিয়্যান্স বলতে আমরা স্যাম্পল ভ্যারিয়্যান্স বোঝাব। অর্থাৎ আমাদের ড্যাটার ভ্যারিয়্যান্স ১৪.২৩।
পরিমিত ব্যবধান (Standard Deviation)
ভেদের আরেকটি পরিমাপ হল standard deviation বা পরিমিত ব্যবধান। এটি আসলে নতুন কোন পরিমাপ নয় বরং ভ্যারিয়্যান্সের বর্গমূল। অর্থাৎ প্রথমে ভ্যারিয়্যান্স বের করে সেটার বর্গমূল নিলেই পরিমিত ব্যবধান পাওয়া যাবে।
যেমন, উপরের ড্যাটা-১থেকে বয়সের ভ্যারিয়্যান্স পেয়েছিলাম ১৪.২৩. তাহলে এর পরিমিত ব্যবধান হবে ১৪.২৩ এর বর্গমূল = ৩.৭৭
ভ্যারিয়্যান্স বের করার সময় আমরা গড় থেকে প্রতিটি সংখ্যার দূরত্বের বর্গ করেছিলাম। সে কারণে প্রাপ্ত ভ্যারিয়্যান্সের একক হয়েছিল বয়স-স্কয়্যার বা বয়স২ (যা উপরে উল্লেখ করিনি). পরিমাপের একককে স্বাভাবিক এককে (অর্থাৎ বয়সে) প্রকাশ করার জন্য এর বর্গমূল নেয়া হয়েছে।
লক্ষ্যণীয় যে ভ্যারিয়্যান্স ব্যাপারটা সহজে বোঝা গেলেও স্ট্যান্ডার্ড ডেভিয়েশন বা পরিমিত ব্যবধানকে অল্প কথায় সহজে ব্যাখ্যা করা যায় না। তবে আমরা এটা বলতে পারি যে পরিমিত ব্যবধান হলো গড় থেকে প্রতিটি সংখ্যা গড়ে যত দূরে অবস্থিত। আমাদের ড্যাটার পরিমিত ব্যবধান ৩.৭৭. অর্থাৎ গড় বয়স থেকে প্রত্যেকের বয়স গড়ে ৩.৭৭ বছর দূরে।
এ থেকে আমরা একটা বিষয় পরিস্কার বুঝতে পারছি—যে ড্যাটার পরিমিত ব্যবধান বেশী হবে সেই ড্যাটার বিস্তার অনেক বেশী। ড্যাটার মাঝে সবগুলো সংখ্যা যদি একই হয় তাহলে পরিমিত ব্যবধান হবে শুন্য।
বাড়ির কাজ
এবারে কমপ্রেসিভ স্ট্রেন্থ এর ড্যাটা থেকে দুটি ব্র্যান্ডের সিমেন্টের কমপ্রেসিভ স্ট্রেন্থ এর পরিমিত ব্যবধান (Standard deviation) বের করুন এবং বলুন কোন ব্র্যান্ডের সিমেন্ট নির্মাণকাজে বেশী নির্ভরযোগ্য হবে।
উপসংহার
এ পর্বে আমরা ভ্যারিয়েবিলিটি বা ভেদ সম্পর্কে জেনেছি। ভেদ-এর কনসেপ্ট সাধারণ হলেও খুবই গুরুত্বপূর্ণ। বলা যায় ড্যাটায় যদি ভেদ না থাকতো তাহলে পরিসংখ্যানের কোন দরকার হতোনা।
আজ এ পর্যন্তই থাক। কোন প্রশ্ন বা পরামর্শ থাকলে ইমেইল করুন কিংবা নিচে মন্তব্য দিন।
সবাইকে সাথে থাকার জন্য ধন্যবাদ।
আগের লেকচার-এর লিংক
লেকচার ২ – গবেষণা পদ্ধতি ও চলক সম্পর্কে ধারণা
লেকচার ৩ – ড্যাটা সামারি বা উপাত্ত সারাংশ (কোয়ালিটেটিভ ভ্যারিয়েবল)
লেকচার ৪ – হিস্টোগ্রাম ও ড্যাটার শেইপ
লেকচার ৫ – কেন্দ্রীয় প্রবণতা ও তার পরিমাপসমূহ
4 pings
পরিসংখ্যান পরিচিতি – লেকচার ৯ – গণনার পদ্ধতিসমূহ – Counting Techniques
এপ্রিল 8, 2013 at 7:01 অপরাহ্ন (UTC -5) Link to this comment
[…] লেকচার ৬ – ভেদ ও এর পরিমাপসমূহ […]
পরিসংখ্যান পরিচিতি – লেকচার ১১ – কতিপয় জটিল ঘটনার সম্ভাবনা- Probability of Complex Events
জুন 2, 2013 at 3:49 অপরাহ্ন (UTC -5) Link to this comment
[…] লেকচার ৬ – ভেদ ও এর পরিমাপসমূহ […]
পরিসংখ্যান পরিচিতি – লেকচার ১৬ – নমুনা নিবেশন (Sampling Distribution)
অক্টোবর 11, 2013 at 1:08 অপরাহ্ন (UTC -5) Link to this comment
[…] লেকচার ৬ – ভেদ ও এর পরিমাপসমূহ […]
পরিসংখ্যান পরিচিতি – লেকচার ১৭ – নিরূপণ (Estimation)
নভেম্বর 10, 2013 at 9:22 পূর্বাহ্ন (UTC -5) Link to this comment
[…] লেকচার ৬ – ভেদ ও এর পরিমাপসমূহ […]