«

»

জানু. 12

পরিসংখ্যান পরিচিতি – লেকচার ৬ – ভেদ ও এর পরিমাপসমূহ

[নিবন্ধনের লিংক] [কোর্সের মূল পাতা]

ভেদ ও এর পরিমাপসমূহ (Variability and its measures)

এনায়েতুর রহীম

এ পর্বে যা থাকছে

কোন ড্যাটায় সংখ্যাগুলো পরস্পরের থেকে কত কাছে বা কত দূরে অবস্থান করছে সেটা গুরুত্বপূর্ণ। ড্যাটায় সবগুলো সংখ্যা সাধারণত একই হয়না—ভিন্ন ভিন্ন হয়। ড্যাটাতে সংখ্যাগুলোর পারস্পরিক ভিন্নতাকে ভেদ (variability) বলে। কোন ড্যাটায় সবগুলো সংখ্যা যদি একই হয় তাহলে সেই ড্যাটার ভেদ শুন্য। অর্থাৎ ড্যাটায় কোন ভ্যারিয়েশন নেই। এ পর্বে আমরা ভ্যারিয়েশন বা ভেদ সম্পর্কে জানার চেষ্টা করবো।

পূর্বালোচনা

গত পর্বে আমরা কেন্দ্রীয় প্রবণতা ও এর পরিমাপসমূহ নিয়ে আলোচনা করেছিলাম। কেন্দ্রীয় প্রবণতার পরিমাপগুলো ছিল গড় (Mean), মধ্যক (Median) ও প্রচুরক (Mode)। ড্যাটাকে সামারাইজ করার জন্য  কেন্দ্রীয় প্রবণতার  এই পরিমাপগুলোকে ব্যবহার করা হয়।

ভ্যারিয়েশন বা ভেদ কী?

যেকোন ড্যাটার ক্ষেত্রে কেন্দ্রীয় প্রবণতার পরিমাপগুলো গুরুত্বপূর্ণ হলেও এসবের মাধ্যমে কোন ড্যাটার একটি দিক সম্পর্কে জানা যায়—যেটি হলো ড্যাটার কেন্দ্র কোথায় অবস্থিত সেটি। কিন্তু কেন্দ্রই সবকিছু নয়। ড্যাটাতে সংখ্যাগুলো পরস্পরে কত দূরে বা কত কাছে অবস্থান করছে সেটিও গুরুত্বপূর্ণ।

ভ্যারিয়েশন মানে ভিন্নতা। বাস্তব জীবনে ভিন্নতাই স্বাভাবিকতা। যেমন শ্রেনীকক্ষে যত ছাত্রছাত্রী আছে তাদের সবার উচ্চতা এক নয়, ভিন্ন ভিন্ন। পরিসংখ্যান পরিচিতি কোর্সে অংশগ্রহণকারী শিক্ষার্থীদের সবার বয়স একই নয়। তাদের বয়স আলাদা আলাদা। এরকম আরো উদাহরণ কল্পণা করা যায়। নিচের সেরকম কয়েকটি উদাহরণ দেয়া হলো—

১) দৌড় প্রতিযোগিতায় অংশগ্রহণকারীরা একই সময়ে একই স্থান থেকে একটি নির্দিষ্ট দুরত্বে অবস্থিত লক্ষ্যে পৌঁছার জন্য দৌড় শুরু করে। কিন্তু সবাই প্রথম হয়না। কেউ প্রথম হয়, কেউ হয় দ্বিতীয়, কেউ তৃতীয়, আর কেউ সবার পিছনে। দৌড় শুরুর স্থান থেকে অভীষ্ট লক্ষ্যে পৌঁছুতে যে সময় লাগবে সেটি যদি আমাদের ভ্যারিয়েবল বা চলক হয়, তাহলে আমরা যে ড্যাটা পাই তাতে সবগুলো সংখ্যা একই হয় না।

নিচের সারণিতে ১০০মিটার দৌড় প্রতিযোগীতার কাল্পণিক ড্যাটা দেখুন। দৌড় শেষ করতে যত সেকেন্ড সময় লেগেছে তা ছোট থেকে বড় আকারে সাজানো হয়েছে।

 

১ম২য়৩য়৪র্থ৫ম৬ষ্ঠ৭ম৮ম৯ম১০ম
৯.১৯.২১০.১১০.১১০.৩১০.৪১০.৬১১.০১১.২১১.৩

 

উপরের সারণিতে সবগুলো সংখ্যা একই নয়। কেবল মাত্র ৩য় এবং ৪র্থ সংখ্যা দুটি একই। আর বাকি সংখ্যাগুলো আলাদা আলাদা। অর্থাৎ সংখ্যাগুলোর মাঝে একটি থেকে অপরটির মধ্যে একটা দুরত্ব বা ব্যবধান রয়েছে। সংখ্যাগুলোর এই ভিন্নতাই ভেদ বা ভ্যারিয়েশন।

২) বাংলাদেশের মানুষের মাথাপিছু গড় আয় কত? কারো আয় অনেক বেশী আবার কারো কোন আয় নেই! এই মাথাপিছু আয়ের ভ্যারিয়েশন কত?

৩) এই কোর্সে অংশগ্রহণকারি শিক্ষার্থীদের বয়সের ভ্যারিয়েশন রয়েছে। কারো বয়স ২১ বছর আবার কারো বয়স ৩২ বছর।

ভ্যারিয়েশন কেন গুরুত্বপূর্ণ

ভ্যারিয়েশন কেন গুরুত্বপূর্ণ তা একটি উদাহরণের মাধ্যমে বোঝার চেষ্টা করি।

ধরা যাক একটি মাধ্যমিক বিদ্যালয়ে দশম শ্রেনীতে তিনটি শাখা রয়েছে। প্রতিটি শাখায় ছাত্র-ছাত্রীর সংখ্যা চল্লিশ (৪০) জন। মাধ্যমিক পরীক্ষার ফল প্রকাশের পর আমরা জানতে চাই কোন শাখার ছাত্র-ছাত্রীরা ভাল ফল করেছে। এজন্য প্রতিটি শাখার ছাত্র-ছাত্রীদের প্রাপ্ত জিপিএর গড় বের করা হল। দেখা গেল প্রতিটি শাখার গড় জিপিএ ৪.৭৫. তাহলে কোন শাখার ছাত্র-ছাত্রীরা ভাল ফল করেছে সেটা আমরা কিভাবে জানবো?

প্রকৌশলের একটি উদাহরণ চিন্তা করি।

ধরা যাক দুটি ভিন্ন ব্যান্ডের সিমেন্টের কমপ্রেসিভ স্ট্রেন্থ (MPa) এর তুলনা করা হবে। এজন্য প্রতিটি ব্যান্ডের সিমেন্টের ভিন্ন ভিন্ন মিক্সচার একটি নির্দিষ্ট সময় পর্যন্ত রেখে পরীক্ষাগারে স্ট্রেন্থ নির্ণয় করা হলো।ধরি ব্র্যান্ড দুটি হচ্ছে ‘ক’ ও ‘খ’।
ড্যাটাটি দেখতে এরকম হল।

 

মিক্সচার

ব্র্যান্ড‘ক’৬৮.৭৫৭০.৩৭৬৮.৩৩৭৩.১৯৭০.৬৬৬৮.৩৬৭০.৯৭
‘খ’৭৩.৬৯৭২.৮৮৬৮.৪৭৭৭.৫৬৭১.৯৫৬৬.৮৯৫৮.৯৩

 

দুটি ব্র্যান্ডের ক্ষেত্রেই গড় কমপ্রেসিভ স্ট্রেন্থ একই, ৭০ (MPa)। কিন্তু আসলেই কি দুটি ব্রান্ডের সিমেন্টের মান একই রকম? তাদের মধ্যে কোন পার্থক্য নেই? আছে। দুটি ব্র্যান্ডের গড় কমপ্রেসিভ স্ট্রেন্থ একই হলেও এদের ভ্যারিয়েবিলিটির মধ্যে পার্থক্য আছে।

উপরের দুটি উদাহরণ থেকে আমরা দেখতে পাচ্ছি কেন্দ্রীয় প্রবণতার পরিমাপ দিয়ে ড্যাটার একটি দিক সম্পর্কে আমরা জানতে পারি—সেটি হচ্ছে ড্যাটার কেন্দ্র কোথায় অবস্থিত। কিন্তু দুটি ড্যাটার গড় এক হলেও তাদের মধ্যে ব্যাপক পার্থক্য থাকতে পারে। এই পার্থ্যক্যগুলোর অন্তরালে রয়েছে ড্যাটার ভেদ বা ভ্যারিয়েশন। দুটি ড্যাটার গড় এক হলেও ভেদের কারণে এদের মধ্যে পার্থক্য হয়ে যাবে।

এবারে আমরা সংক্ষেপে ভ্যারিয়েবিলিটির পরিমাপগুলো জানার চেষ্টা করবো।

ভেদের পরিমাপ সমূহ (Measures of variability)

ভেদের তিনটি পরিমাপ নিয়ে আমরা আলোচনা করবো। সেগুলি হল:

১) রেঞ্জ (range) বা বিস্তার
২) ভ্যারিয়্যান্স (variance) বা ভেদাঙ্ক
৩) স্ট্যান্ডার্ড ডেভিয়েশন (standard deviation) বা পরিমিত ব্যবধান

রেঞ্জ (Range) বা বিস্তার

ভেদের সবচেয়ে সহজ ও সাধারণ পরিমাপ হল রেঞ্জ। এর মাধ্যমে কোন ড্যাটার মধ্যে অবস্থিত সংখ্যাগুলোর মধ্যে সবচেয়ে ছোট এবং সবচেয়ে বড় সংখ্যাদ্বয়ের ব্যবধান নির্দেশ করা হয়। অর্থাৎ কোন ড্যাটার সবচেয়ে বড় সংখ্যা ও সবচেয়ে ছোট সংখ্যার মধ্যে যে ব্যবধান বা পার্থক্য তাকে বিস্তার বা রেঞ্জ বলে।

ধরা যাক এই কোর্সে অংশগ্রহণকারী দশ জন শিক্ষার্থীর বয়স নিম্নরূপ:

ড্যাটা-১
৩৩, ৩৫, ২৮, ২৫, ২৮, ৩৩, ২৬, ২৯, ৩২, ২৪

আরো ধরি, শিক্ষক ডট কম সাইটে অন্য আরেকটি কোর্সের দশ জন শিক্ষার্থীর বয়স নিম্নরূপ:

ড্যাটা-২
২২, ২৩, ৩২, ২১, ২৫, ৩০, ২৮, ২৫, ৩৪, ২১

স্পষ্টতই সবার বয়স এক নয়। বয়সের মধ্যে পার্থক্য রয়েছে। অর্থাৎ বয়সের মধ্যে ভ্যারিয়েশন আছে। এই পার্থক্য বা ভেদ বুঝতে পারার কনসেপ্টটি গুরুত্বপূর্ণ।

এই ড্যাটা থেকে আমরা রেঞ্জ বা বিস্তার বের করবো। এজন্য ড্যাটার সবচেয়ে বড় আর সবচেয়ে ছোট সংখ্যাদুটি বের করতে হবে।

ড্যাটা-১
বড় সংখ্যাটি হল ৩৫
ছোট সংখ্যাটি ২৫
ড্যাটার রেঞ্জ হল ৩৫-২৫ = ১০

ড্যাটা-২
বড় সংখ্যাটি হল ৩৪
ছোট সংখ্যাটি হল ২১
রেঞ্জ বা বিস্তার: ৩৪-২১ = ১৩

দুটি ড্যাটার ক্ষেত্রে আমরা দেখলাম ড্যাটা-২ এর শিক্ষার্থীদের বয়সের বিস্তার ড্যাটা-১ এর শিক্ষার্থীদের বয়সের বিস্তারের চেয়ে বেশী।

বিস্তার সহজেই বের করা যায় কিন্তু এর কিছু অসুবিধা আছে। প্রধান অসুবিধা হলো এটি চরম সংখ্যা বা এক্সট্রিম মান দ্বারা প্রভাবিত হয়। অর্থাৎ কোন সংখ্যা যদি খুব বড় বা খুব ছোট হয় (অনেকসময় ভুলক্রমে এমনটা হতে পারে) তাহলে বিস্তার খুব ছোট বা খুব বড় হয়ে যেতে পারে। সেক্ষেত্রে বিস্তার খুব একটা নির্ভরযোগ্য পরিমাপ নয়। ভেদের ভাল পরিমাপটি হলো ভেদাঙ্ক বা ভ্যারিয়্যান্স।

ভেদাঙ্ক (Variance)

ভেদাঙ্ক আসলে এক ধরনের গড়। চিত্রের মাধ্যমে আমরা বোঝার চেষ্টা করি। ধরি আমরা ড্যাটা-১ এ প্রাপ্ত ৩৩, ৩৫, ২৮, ২৫, ২৮, ৩৩, ২৬, ২৯, ৩২, ২৪ বয়সগুলোর ভেদাঙ্ক বের করবো। এর জন্য প্রথমেই আমাদের ড্যাটার গড় বের করতে হবে। আগের পর্বে আমরা গড় বের করা শিখেছি। তা থেকে আমরা ক্যালকুলেট করে পাই যে বয়সগুলোর গড় ২৯.৩ যা এই ড্যাটার কেন্দ্রীয় সংখ্যা।

এর পর নিচের চিত্রের বাম দিকে দেখুন ২৯.৩ কে কেন্দ্র করে বাকী সংখ্যাগুলো কেমন বৃত্তাকারে দাঁড়িয়ে আছে। এখন আমাদের এই কেন্দ্র অর্থাৎ গড় (২৯.৩) থেকে প্রতিটি সংখ্যা কত দূরে আছে সেটা বের করতে হবে। নিচের যেকোন একটি উপায়ে আমরা এই দুরত্ব বের করতে পারি:

সংখ্যা – (২৯.৩)  অর্থাৎ প্রতিটি সংখ্যা থেকে গড় কে বিয়োগ দিয়ে

অথবা

২৯.৩ – সংখ্যা অর্থাৎ গড় থেকে প্রতিটি সংখ্যা বিয়োগ দিয়ে।

আমি গড় বা ২৯.৩ থেকে প্রতিটি সংখ্যা বিয়োগ দিয়ে চিত্রে দেখিয়েছি। যেমন, আমরা দেখতে পাচ্ছি ২৯.৩-৩৩ = -৩.৭ (নেগেটিভ ৩.৭). এভাবে গড় থেকে প্রত্যেকটি সংখ্যার দূরত্ব বের করে নিয়েছি। এর পর আমরা এই দূরত্বগুলোকে বর্গ করে সেই বর্গ সংখ্যাগুলোর গড় বের করেছি।

 

ভ্যারিয়্যান্স যেভাবে বের করা হয়

ভ্যারিয়্যান্স যেভাবে বের করা হয়

 

তাহলে আমরা দেখলাম ভ্যারিয়্যান্স হল কেন্দ্র বা গড় থেকে প্রতিটি সংখ্যার দূরত্বের বর্গের গড়।

এই যে ভ্যারিয়্যান্স বের করলাম তাকে আমরা জনসমষ্টির ভ্যারিয়্যান্স বা Population Variance বলবো। কিন্তু আমরা যখন নমুনা বা স্যাম্পল থেকে ভ্যারিয়্যান্স বের করি তখন উপরের সূত্রের হর (Denominator)-এ ১০ এর স্থলে আমরা ৯ ব্যবহার করবো। অর্থাৎ উপরের দশটি সংখ্যার নমুনা ভ্যারিয়্যান্স বা Sample Variance হবে

১২৮.১ ভাগ ৯ = ১৪.২৩

কেন আমরা দূরত্বগুলোর বর্গের গড় বের করতে গিয়ে হর (Denominator) থেকে ১ বিয়োগ করে দিলাম সেটা পরবর্তীতে জানার চেষ্টা করবো। আপাতত আমরা ভ্যারিয়্যান্সের কনসেপ্ট বোঝার চেষ্টা করলাম। এই কোর্সে  ভ্যারিয়্যান্স বলতে আমরা স্যাম্পল ভ্যারিয়্যান্স বোঝাব। অর্থাৎ আমাদের ড্যাটার ভ্যারিয়্যান্স ১৪.২৩।

পরিমিত ব্যবধান (Standard Deviation)

ভেদের আরেকটি পরিমাপ হল standard deviation বা পরিমিত ব্যবধান। এটি আসলে নতুন কোন পরিমাপ নয় বরং ভ্যারিয়্যান্সের বর্গমূল। অর্থাৎ প্রথমে ভ্যারিয়্যান্স বের করে সেটার বর্গমূল নিলেই পরিমিত ব্যবধান পাওয়া যাবে।

যেমন, উপরের ড্যাটা-১থেকে বয়সের ভ্যারিয়্যান্স পেয়েছিলাম ১৪.২৩. তাহলে এর পরিমিত ব্যবধান হবে ১৪.২৩ এর বর্গমূল = ৩.৭৭

ভ্যারিয়্যান্স বের করার সময় আমরা গড় থেকে প্রতিটি সংখ্যার দূরত্বের বর্গ করেছিলাম। সে কারণে প্রাপ্ত ভ্যারিয়্যান্সের একক হয়েছিল বয়স-স্কয়্যার বা বয়স২ (যা উপরে উল্লেখ করিনি). পরিমাপের একককে স্বাভাবিক এককে (অর্থাৎ বয়সে) প্রকাশ করার জন্য এর বর্গমূল নেয়া হয়েছে।

লক্ষ্যণীয় যে ভ্যারিয়্যান্স ব্যাপারটা সহজে বোঝা গেলেও স্ট্যান্ডার্ড ডেভিয়েশন বা পরিমিত ব্যবধানকে অল্প কথায় সহজে ব্যাখ্যা করা যায় না। তবে আমরা এটা বলতে পারি যে পরিমিত ব্যবধান হলো গড় থেকে প্রতিটি সংখ্যা গড়ে যত দূরে অবস্থিত। আমাদের ড্যাটার পরিমিত ব্যবধান ৩.৭৭. অর্থাৎ গড় বয়স থেকে প্রত্যেকের বয়স গড়ে ৩.৭৭ বছর দূরে।

এ থেকে আমরা একটা বিষয় পরিস্কার বুঝতে পারছি—যে ড্যাটার পরিমিত ব্যবধান বেশী হবে সেই ড্যাটার বিস্তার অনেক বেশী। ড্যাটার মাঝে সবগুলো সংখ্যা যদি একই হয় তাহলে পরিমিত ব্যবধান হবে শুন্য।

বাড়ির কাজ

এবারে কমপ্রেসিভ স্ট্রেন্থ এর ড্যাটা থেকে দুটি ব্র্যান্ডের সিমেন্টের কমপ্রেসিভ স্ট্রেন্থ এর পরিমিত ব্যবধান (Standard deviation) বের করুন এবং বলুন কোন ব্র্যান্ডের সিমেন্ট নির্মাণকাজে বেশী নির্ভরযোগ্য হবে।

উপসংহার

এ পর্বে আমরা ভ্যারিয়েবিলিটি বা ভেদ সম্পর্কে জেনেছি। ভেদ-এর কনসেপ্ট সাধারণ হলেও খুবই গুরুত্বপূর্ণ। বলা যায় ড্যাটায় যদি ভেদ না থাকতো তাহলে পরিসংখ্যানের কোন দরকার হতোনা।

আজ এ পর্যন্তই থাক। কোন প্রশ্ন বা পরামর্শ থাকলে ইমেইল করুন কিংবা নিচে মন্তব্য দিন।

সবাইকে সাথে থাকার জন্য ধন্যবাদ।

 

আগের লেকচার-এর লিংক

ভূমিকা

লেকচার ১ – উপাত্ত সংগ্রহ

লেকচার ২ – গবেষণা পদ্ধতি ও চলক সম্পর্কে ধারণা

লেকচার ৩ – ড্যাটা সামারি বা উপাত্ত সারাংশ (কোয়ালিটেটিভ ভ্যারিয়েবল)

লেকচার ৪ – হিস্টোগ্রাম ও ড্যাটার শেইপ

লেকচার ৫ – কেন্দ্রীয় প্রবণতা ও তার পরিমাপসমূহ

Comments

comments

About the author

এনায়েতুর রহীম

পরিসংখ্যান নিয়ে আছি প্রায় দুই দশক -- এখনো শিখছি--পড়ে এবং পড়ানোর মাধ্যমে। ঢাকা বিশ্ববিদ্যালয় থেকে ফলিত পরিসংখ্যানে ব্যাচেলরস, মাস্টার্স। গবেষণা মূলত গাণিতিক পরিসংখ্যান নিয়ে। বিশেষভাবে কাজ করি রিগ্রেশন মডেলে Shrinkage and Absolute Penalty Estimation নিয়ে। আরো কাজ করি পরিসংখ্যান বিষয়ক সফটওয়্যার, মন্টি কারলো, রিস্যাম্পলিং, জনস্বাস্থ্য ও এপিডেমিওলজি, এবং পরিবেশ বিষয়ক পরিসংখ্যানে। কর্মজীবন শুরু ঢাকা বিশ্ববিদ্যালয়ে শিক্ষকতার মাধ্যমে। বর্তমানে ইউনিভার্সিটি অব নর্দার্ন কলোরাডো তে ফলিত পরিসংখ্যানের সহকারী অধ্যাপক হিসেবে কর্মরত। ব্যক্তিগত সাইট

4 pings

  1. পরিসংখ্যান পরিচিতি – লেকচার ৯ – গণনার পদ্ধতিসমূহ – Counting Techniques

    […] লেকচার ৬ – ভেদ ও এর পরিমাপসমূহ  […]

  2. পরিসংখ্যান পরিচিতি – লেকচার ১১ – কতিপয় জটিল ঘটনার সম্ভাবনা- Probability of Complex Events

    […] লেকচার ৬ – ভেদ ও এর পরিমাপসমূহ  […]

  3. পরিসংখ্যান পরিচিতি – লেকচার ১৬ – নমুনা নিবেশন (Sampling Distribution)

    […] লেকচার ৬ – ভেদ ও এর পরিমাপসমূহ  […]

  4. পরিসংখ্যান পরিচিতি – লেকচার ১৭ – নিরূপণ (Estimation)

    […] লেকচার ৬ – ভেদ ও এর পরিমাপসমূহ  […]

Leave a Reply