«

»

ডিসে. 21

পরিসংখ্যান পরিচিতি – লেকচার ৪ – হিস্টোগ্রাম ও ড্যাটার শেইপ

[নিবন্ধনের লিংক] [কোর্সের মূল পাতা]

পরিসংখ্যান পরিচিতি – লেকচার-৪

এনায়েতুর রহীম

ভিডিও-ডাউনলোড লিংক

3gp ফরম্যাট (৬ মেগা, ৫ মিনিট)

MP4 ফরম্যাট (৫৬ মেগা, ৫ মিনিট)

এ পর্বে যা থাকছে

এ পর্বে আমরা সংখ্যাবাচক চলক বা কোয়ান্টিটেটিভ ভ্যারিয়েবল (Quantitative variable) নিয়ে কাজ করেছি। সংখ্যাবাচক চলকের ক্ষেত্রে সামারি স্ট্যাটিসটিক্স কিভাবে বের করে সেটা দেখানো হয়েছে। আগের মতই মূলত: নিজেদের সংগ্রহ করা উপাত্ত নিয়েই কাজ করব। আমাদের উপাত্তে একটি মাত্র ভ্যারিয়েবল ছিল—বয়স—যেটি ছিল কোয়ান্টিটেটিভ। স্মরণ করা যেতে পারে যে বয়স ভ্যারিয়বলটি বছরে প্রকাশ করা হয়েছিল যে কারণে আমরা বয়সগুলো পেয়েছিলাম পূর্ণ সংখ্যায়। অর্থাৎ বয়স ভ্যারিয়েবলটি কোয়ান্টিটেটিভ ডিসক্রিট ভ্যারিয়েবলের (সংখ্যাবাচক বিচ্ছিন্ন চলক ) একটি উদাহরণ।

পূর্বালোচনা

গত পর্বে ড্যাটা সামারি হিসেবে গুনবাচক চলক (Qualitative variable)  থেকে সামারি স্ট্যাটিসটিক বের করা নিয়ে আলোচনা করেছিলাম। গুনবাচক চলকের ক্ষেত্রে শতকরা হার আর তা চিত্রের মাধ্যমে প্রকাশ করা ছাড়া খুব বেশী কিছু করার থাকে না। একটি উদাহরণ দিয়ে বার চার্ট তৈরী করা দেখিয়েছিলাম। সেই সাথে পাই চার্ট তৈরী করার জন্য বাড়ীর কাজ দিয়েছিলাম। যারা করেছেন তাদের ধন্যবাদ, আর যারা করেন নি তারা সময় করে সম্পন্ন করবেন বলে আশা করছি। কোন প্রশ্ন থাকলে অবশ্যই ইমেইল করবেন।

কোয়ান্টিটেটিভ ভ্যারিয়েবলের সামারি স্ট্যাটিসটিক্স

কোয়ান্টিটেটিভ ভ্যারিয়েবলের (Quantitative Variable) অনেক ধরনের সামারি স্ট্যাটিসটিক্স করা যায়। মনে করা যেতে পারে যে কোয়ালিটেটিভ ভ্যারিয়েবলের (Qualitative Variable) জন্য আমরা প্রথমেই ঘটন সারণী বা ফ্রিকোয়েন্সী টেবিল (Frequency Table) তৈরী করেছিলাম। তাত্তিকভাবে কোয়ান্টিটেটিভ ভ্যারিয়েবলের ক্ষেত্রেও ফ্রিকোয়েন্সি টেবিল করা যায়। কিন্তু অধিকাংশ ক্ষেত্রেই এরকম ফ্রিকোয়েন্সি টেবিল থেকে আমরা দরকারি কোন তথ্য পাই না। তাহলে কি আমরা কোয়ান্টিটেটিভ ভ্যারিয়েবলের জন্য ফ্রিকোয়েন্সি টেবিল তৈরী করব না? অবশ্যই তৈরী করবো, কিন্তু সেটি করবো একটু অন্যভাবে। একটি উদাহরণের মাধ্যমে ব্যাপারটা পরিষ্কার করা যাক।

ধরা যাক আমাদের কাছে কিছু উপাত্ত আছে যেখানে একটি ভ্যারিয়েবল হচ্ছে পাশ — অর্থাৎ পরীক্ষায় পাশ করেছে কি করেনি, এবং আরেকটি ভ্যারিয়েবল হচ্ছে বয়স। চিত্র-১ এ ভ্যারিয়েবল দুটির কিছু মান এবং তাদের ফ্রিকোয়েন্সি টেবিল তৈরী করে তাদের তুলনা করা হলো।

 

কোয়ালিটেটিভ ও কোয়ান্টিটেটিভ ভ্যারিয়েবলের ফ্রিকোয়েন্সি টেবিলের তুলনামূলক চিত্র

চিত্র ১: কোয়ালিটেটিভ ও কোয়ান্টিটেটিভ ভ্যারিয়েবলের ফ্রিকোয়েন্সি টেবিলের তুলনামূলক চিত্র।

আমরা দেখতে পাচ্ছি বয়স ভ্যারিয়েবলটির ফ্রিকোয়েন্সি টেবিল থেকে আমরা আসলে দরকারি কোন তথ্য পাচ্ছি না। টেবিল থেকে শুধু এটুকু দেখতে পাচ্ছি যে প্রত্যেকটি বয়স মাত্র একবার করে এসেছে। আর তাই প্রত্যেকটির শতকরা হারও একই—১৪.২৮% . অন্যদিকে কোয়ালিটেটিভ ভ্যারিয়বলের দুটি সম্ভাব্য মান—পাশ করেছে, পাশ করেনি—প্রত্যেকটি তিন বার করে এসেছে এবং এদের শতকরা হার ৫০।

আমরা আরো দেখতে পাচ্ছি “পাশের” টেবিলটি অনেক ছোট এবং “বয়সের” টেবিলটি সে তুলনায় অনেক বড়। ভেবে দেখুন প্রত্যেকটি ভ্যারিয়েবলের জন্য উপাত্তের পরিমাণ যদি অনেক বেশী হতো তাহলে টেবিলগুলো কেমন হতো। কোয়ালিটেটিভ ভ্যারিয়বলের (পাশ করেছে কি করেনি) ক্ষেত্রে উপাত্ত যত বেশীই থাকুক না কেন টেবিলের আকার একই থাকতো। শুধু ঘটন সংখ্যার পরিবর্তন হতো। অন্যদিকে বয়স ভ্যারিয়েবলের ক্ষেত্রে যদি অনেক বেশী উপাত্ত থাকতো এবং প্রত্যেকটি মান যদি এরকম আলাদা আলাদা হতো তাহলে টেবিলের আকার অনেক বড় হয়ে যেতো। সেক্ষেত্রে আমাদের মূল উদ্দেশ্য যে উপাত্তকে সামারাইজ করা– সেটিই ব্যাহত হতো।

এই সমস্যা থেকে  বাঁচতে কোয়ান্টিটেটিভ ভ্যারিয়েবলের জন্য ফ্রিকোয়েন্সি টেবিল আমরা একটু ভিন্ন ভাবে তৈরী করবো। এর জন্য প্রথমে বয়স ভ্যারিয়েবলটিকে কয়েকটি ছোট ছোট গ্রুপে বা শ্রেনীতে (Class) ভাগ করব। যেমন বয়স ৫এর কম, ৫ থেকে ১০ এর কম, ১০ থেকে ১৫এর কম, এভাবে ছোট ছোট বয়স-ভিত্তিক শ্রেনীতে (Class) ভাগ করবো।

উপরের উদাহরণে বয়সের যে উপাত্ত দেয়া হয়েছে তার জন্য এরকম শ্রেনী হতে পারে ২০ থেকে ২৫ এর কম, ২৫ থেকে ৩০ এর কম এবং ৩০ বা তার বেশী। বয়সগুলোকে এরকম ছোট ছোট গ্রুপে ভাগ করে প্রত্যেকটি শ্রেনীতে কতটি বয়স আছে তার ফ্রিকোয়েন্সি বের করলে ফ্রিকোয়েন্সি টেবিলটি দেখতে নিম্মরূপ হবে।

 

শ্রেনীতে ভাগ করার পর বয়সের ফ্রিকোয়েন্সি টেবিল।

চিত্র ২: শ্রেনীতে ভাগ করার পর বয়সের ফ্রিকোয়েন্সি টেবিল।

চিত্র-২ থেকে আমরা বয়স সম্পর্কে চিত্র-১ এর তুলনায় অনেক বেশী অর্থবহ তথ্য পাচ্ছি। চিত্র-২ থেকে আমরা জানতে পারছি যে প্রায় ৪৩ শতাংশের বয়স ২৫ এর কম এবং বাকী প্রায় ৭৫ শতাংশের বয়স ২৫ বা তার বেশী। আরো নির্দিষ্টভাবে বলতে গেলে প্রায় ২৯ শতাংশের বয়স ২৫ থেকে ৩০ এর মধ্যে, এবং ২৯%এর বয়স ৩৫ বা তার বেশী। টেবিল থেকে দেখা যাচ্ছে যে ৩০ থেকে ৩৫ বছর বয়সের কেউ আমাদের উপাত্তে নেই।

কোয়ান্টিটেটিভ ভ্যারিয়েবলকে চিত্রের মাধ্যমে প্রকাশ করতে আমরা হিস্টোগ্রাম ব্যবহার করি। নীচে হিস্টোগ্রাম নিয়ে বিস্তারিত আলোচনা করা হল।

হিস্টোগ্রাম (Histogram)  ও উপাত্তের আকার (Shape of the data)

হিস্টোগ্রামের মাধ্যমে কোয়ান্টিটেটিভ ভ্যারিয়েবলের ফ্রিকোয়েন্সি ডিস্ট্রিবিউশন (Frequency distribution) বা ঘটন বিন্যাসকে চিত্রের মাধ্যমে প্রকাশ করা যায়। এর জন্য প্রথমেই উপাত্তকে কয়েকটি শ্রেনীতে ভাগ করে নিতে হয়। শ্রেনীবদ্ধ করার পর প্রত্যেকটি শ্রেনীর ফ্রিকোয়েন্সি বা ঘটন সংখ্যা বের করতে হয় এবং সবগুলো শ্রেনীর ঘটন সংখ্যা বের করার পরে তা টেবিলে সাজাতে হয়। উপরে চিত্র-১ ও ২ এ আমরা ফ্রিকোয়েন্সি টেবিল তৈরী করা দেখিয়েছি। তাছাড়া লেকচার-২ এ ভিডিওর মাধেমে দেখিয়েছিলাম কিভাবে এক্সেল ২০১০-এ ফ্রিকোয়েন্সি টেবিল তৈরী করা যায়।

মনে করা যেতে পারে আমরা একটি জরীপ করেছিলাম। সেখানে অংশগ্রহণকারীদের বয়সের উপাত্ত সংগ্রহ করা হয়েছিল। এখন আমি জরীপে অংশগ্রহণকারীদের বয়সের ফ্রিকোয়েন্সি ডিস্ট্রিবিউশন এবং তা থেকে হিস্টোগ্রাম এঁকে দেখাবো। পুরো জিনিসটাই আমি এক্সেলে করে দেখাবো।

হিস্টোগ্রাম তৈরী করার ধাপসমূহ

১) প্রথমেই বয়সের কলামটিকে আলাদা একটি ওয়ার্কশিটে কপি করে নিন।

২) এর পর সর্বনিম্ন ও সর্বোচ্চ বয়স বের করে নিন। এটা করার জন্য এক্সের-এর MIN() এবং MAX() ফাংশন দুটো ব্যবহার করতে পারেন। আমাদের ড্যাটায় সর্বোচ্চ বয়স = ৩৭ বছর আর সর্বনিম্ন বয়স = ২০ বছর।

৩) সর্বোচ্চ ও সর্বনিম্ম বয়সের ব্যবধান বের করুন। আমাদের ক্ষেত্রে এটি ৩৭-২০ = ১৭।

৪) বয়সগুলোকে আমরা ৫ থেকে ৬টি শ্রেনীতে ভাগ করবো। উপাত্তের সংখ্যার উপর ভিত্তি করে এটি বাড়তে বা কমতে পারে। তবে সাধারণত ৫এর কম হলে হিস্টোগ্রাম ভাল দেখায় না। আর দশের বেশি সাধারণত দরকার হয় না।

৫) ৫/৬টি শ্রেনীতে ভাগ করার জন্য শ্রেনী ব্যবধান কত হবে তা বের করতে হবে। এজন্য সর্বোচ্চ ও সর্বনিম্ন  বয়সের ব্যবধানকে আমরা ৫ বা ৬ দিয়ে ভাগ দিতে পারি। আমি ৫ দিয়ে ভাগ দিয়েছি। নিচের চিত্রে দেখুন। শ্রেনী ব্যবধান পেলাম ৪।

৬) এবারে এক্সেলে বয়সের কলামের পাশে আরেকটি কলামে শ্রেনী ব্যবধানগুলো লিখতে হবে। খেয়াল রাখতে হবে যে প্রতিটি শ্রেনী ব্যবধানের উচ্চ সীমাটি শুধু লিখতে হবে। যেমন বয়সের শ্রেনী ব্যবধান ২০-২৩ হলে আমরা শুধু ২৩ লিখব। ভিডিওতে বিস্তারিত দেখিয়েছি।

শিক্ষার্থীদের বয়সের শ্রেনী-বিন্যাস যেভাবে করা হয়েছে।

চিত্র ৩: শিক্ষার্থীদের বয়সের শ্রেনী-বিন্যাস যেভাবে করা হয়েছে।

৭) এবার এক্সেল (২০১০) এর Data মেনু থেকে Data Analysis টুল সিলেক্ট করে Histogram বেছে নিন।

৮) ইনপুট রেন্জ (Input range) এর জন্য বয়সের কলামটি এবং বিন রেন্জ  (Bin range) এর জন্য শ্রেনী বিন্যাসের কলামটি বেছে নিন।

৯) ডায়ালগ বক্সের নিচের দিকে Chart output এ টিক চিহ্ন দিয়ে সিলেক্ট করে নিন।

১০) এর পর OK ক্লিক করুন।

ওকে করার পরে নিচের চিত্রের মত চিত্র আপনি পাবেন না তবে যেটি পাবেন সেটা থেকে এরকম চিত্র কিভাবে করা হয সেটা ভিডিওতে দেখিয়েছি। চিত্রে লাল রঙের যে রেখা দেখতে পাচ্ছেন সেটি আপনি দেখতে পাবেন না। এটি আমি হাতে এঁকেছি।

শিক্ষার্থীদের বয়সের হিস্টোগ্রাম।

চিত্র ৪: শিক্ষার্থীদের বয়সের হিস্টোগ্রাম।

 ইউটিউবে হিস্টোগ্রাম আঁকা দেখুন

হিস্টোগ্রাম থেকে আমরা যা পেলাম–

  • কোন্ বয়স-শ্রেনীতে সর্বাধিক শিক্ষার্থী আছে (যেটিকে শতকরা হিসাবেও প্রকাশ করা যায়।)
  • কোন্ বয়স-শ্রেনীতে সবচেয়ে বেশী শিক্ষার্থী আছে।
  • বয়সের বিন্যাসের আকার (shape of the age-distribution)

এর মধ্যে গুরুত্তপূর্ণ হল বিন্যাসের আকার বা শেইপ। এখন আমরা ড্যাটার শেইপ সম্পর্কে একটু আলোচনা করবো। শেইপ খুবই গুরুত্বপূর্ণ একটি বিষয়। বিশেষ করে সম্ভাবনার বিন্যাস এবং হাইপোথিসিস টেস্ট ভালো করে বোঝার জন্য ডিস্ট্রিবিউশন-এর আকার (shape of the distribution) সম্পর্কে স্বচ্ছ ধারণা থাকা দরকার।

ডিস্ট্রিবিউশন ব্যপারটা কী

ডিস্ট্রিবিউশনের বাংলা করলে বলা যায় “ছড়ানো”, “বিন্যাস” বা এরকম কিছু “যা ছড়িয়ে আছে” কিংবা “যেভাবে ছড়িয়ে আছে”. ড্যাটা ডিস্ট্রিবিউশন অর্থ উপাত্তের বিন্যাস। হিস্টোগ্রামের মাধ্যমে আমরা উপাত্তের বিন্যাস চিত্রের মাধ্যমে প্রকাশ করে থাকি।

উপাত্তের বিন্যাস থাকলে সে বিন্যাসের কোন-না-কোন আকারও থাকে। নীচের চিত্রে তিনটি বিন্যাস হিস্টোগ্রামের মাধ্যমে দেখানো হল। প্রত্যেকটি বিন্যাসের শেইপ সম্পর্কে ধারণা দিতে লাল রংয়েরে মসৃন কার্ভ আঁকা হয়েছে।

 

Shape of Data Distribution বা উপাত্তের বিন্যাসের আকার।

চিত্র ৫: Shape of Data Distribution বা উপাত্তের বিন্যাসের আকার।

চিত্র-৫ এ উপরের বামে যে বিন্যাস দেখতে পাচ্ছি সেটি প্রতিসম বিন্যাস বা symmetric distribution । উপরের ডানে যেটি দেখতে পাচ্ছি তাতে অধিকাংশ উপাত্তই বিন্যাসের বামদিকে রয়েছে আর খুব কম সংখ্যক উপাত্ত রয়েছে ডান দিকে। যে কারণে বিন্যাসটি ডান দিকে বেঁকে গিয়েছে বলে মনে হচ্ছে। এধরনের বিন্যাসকে অপ্রতিসম বা বাঁকানো (skewed) বিন্যাস বলা হয়। বাঁক যদি ডানে থাকে তাকে skewed-right বা skewed to the right বা right-skewed বিন্যাস বলে। আর বাঁক যদি বামে থাকে তাহলে skewed-left or skewed to the left বা left-skewed বিন্যাস বলে।

আমি আবারো বলছি — বিন্যাসের ব্যাপারটা খুবই গুরুত্বপূর্ণ।

সারাংশ

এ পর্বে আমরা কোয়ান্টিটেটিভ বা সংখ্যাবাচক ভ্যারিয়েবল নিয়ে কাজ করেছি। সংখ্যাবচক ভ্যারিয়েবল থেকে কিভাবে  হিস্টোগ্রাম তৈরী করা যায় সেটি দেখেছি। সেই সাথে গুরুত্বপূর্ণ একটি বিষয় সম্পর্কে আমরা জেনেছি—সেটি হল বিন্যাসের আকার বা shape of the distribution।

আজ এ পর্যন্তই থাক। কোন প্রশ্ন বা পরামর্শ থাকলে ইমেইল করতে ভুলবেন না।

সবাইকে সাথে থাকার জন্য ধন্যবাদ।

আগের লেকচার-এর লিংক

ভূমিকা

লেকচার ১ : উপাত্ত সংগ্রহ

লেকচার ২ – গবেষণা পদ্ধতি ও চলক সম্পর্কে ধারণা

লেকচার ৩ – ড্যাটা সামারি বা উপাত্ত সারাংশ (কোয়ালিটেটিভ ভ্যারিয়েবল)

Comments

comments

About the author

এনায়েতুর রহীম

পরিসংখ্যান নিয়ে আছি প্রায় দুই দশক -- এখনো শিখছি--পড়ে এবং পড়ানোর মাধ্যমে। ঢাকা বিশ্ববিদ্যালয় থেকে ফলিত পরিসংখ্যানে ব্যাচেলরস, মাস্টার্স। গবেষণা মূলত গাণিতিক পরিসংখ্যান নিয়ে। বিশেষভাবে কাজ করি রিগ্রেশন মডেলে Shrinkage and Absolute Penalty Estimation নিয়ে। আরো কাজ করি পরিসংখ্যান বিষয়ক সফটওয়্যার, মন্টি কারলো, রিস্যাম্পলিং, জনস্বাস্থ্য ও এপিডেমিওলজি, এবং পরিবেশ বিষয়ক পরিসংখ্যানে। কর্মজীবন শুরু ঢাকা বিশ্ববিদ্যালয়ে শিক্ষকতার মাধ্যমে। বর্তমানে ইউনিভার্সিটি অব নর্দার্ন কলোরাডো তে ফলিত পরিসংখ্যানের সহকারী অধ্যাপক হিসেবে কর্মরত। ব্যক্তিগত সাইট

5 pings

  1. পরিসংখ্যান পরিচিতি - লেকচার ৫ - কেন্দ্রীয় প্রবণতা ও তার পরিমাপসমূহ - শিক্ষক - বাংলা ভাষায় অনলাইন

    […] গত পর্বে সংখ্যাবাচক চলক বা কোয়ান্টিটেটিভ ভ্যারিয়েবল (Quantitative variable) নিয়ে কাজ করেছিলাম। সংখ্যাবাচক চলকের ক্ষেত্রে সামারি স্ট্যাটিসটিক্স কিভাবে বের করে সেটা দেখিয়েছিলাম। মূলত হিস্টোগ্রাম আঁকা শিখেছিলাম এবং ড্যাটার শেইপ নিয়ে আলোচনা করেছিলাম। বলেছিলাম যে শেইপের ধারণাটি খুবই গুরুত্বপূর্ণ। […]

  2. পরিসংখ্যান পরিচিতি লেকচার ৭: তুলনামূলক অবস্থান ও z-score

    […] লেকচার ৪ – হিস্টোগ্রাম ও ড্যাটার শেইপ […]

  3. পরিসংখ্যান পরিচিতি - সম্ভাবনা (Probability) ও এর মৌলিক বিষয়সমূহ

    […] লেকচার ৪ – হিস্টোগ্রাম ও ড্যাটার শেইপ […]

  4. পরিসংখ্যান পরিচিতি – লেকচার ৯ – গণনার পদ্ধতিসমূহ – Counting Techniques

    […] লেকচার ৪ – হিস্টোগ্রাম ও ড্যাটার শেইপ […]

  5. পরিসংখ্যান পরিচিতি – লেকচার ১১ – কতিপয় জটিল ঘটনার সম্ভাবনা- Probability of Complex Events

    […] লেকচার ৪ – হিস্টোগ্রাম ও ড্যাটার শেইপ […]

Leave a Reply