[নিবন্ধনের লিংক] [কোর্সের মূল পাতা]
পরিসংখ্যান পরিচিতি – লেকচার-৪
এনায়েতুর রহীম
ভিডিও-ডাউনলোড লিংক
3gp ফরম্যাট (৬ মেগা, ৫ মিনিট)
MP4 ফরম্যাট (৫৬ মেগা, ৫ মিনিট)
এ পর্বে যা থাকছে
এ পর্বে আমরা সংখ্যাবাচক চলক বা কোয়ান্টিটেটিভ ভ্যারিয়েবল (Quantitative variable) নিয়ে কাজ করেছি। সংখ্যাবাচক চলকের ক্ষেত্রে সামারি স্ট্যাটিসটিক্স কিভাবে বের করে সেটা দেখানো হয়েছে। আগের মতই মূলত: নিজেদের সংগ্রহ করা উপাত্ত নিয়েই কাজ করব। আমাদের উপাত্তে একটি মাত্র ভ্যারিয়েবল ছিল—বয়স—যেটি ছিল কোয়ান্টিটেটিভ। স্মরণ করা যেতে পারে যে বয়স ভ্যারিয়বলটি বছরে প্রকাশ করা হয়েছিল যে কারণে আমরা বয়সগুলো পেয়েছিলাম পূর্ণ সংখ্যায়। অর্থাৎ বয়স ভ্যারিয়েবলটি কোয়ান্টিটেটিভ ডিসক্রিট ভ্যারিয়েবলের (সংখ্যাবাচক বিচ্ছিন্ন চলক ) একটি উদাহরণ।
পূর্বালোচনা
গত পর্বে ড্যাটা সামারি হিসেবে গুনবাচক চলক (Qualitative variable) থেকে সামারি স্ট্যাটিসটিক বের করা নিয়ে আলোচনা করেছিলাম। গুনবাচক চলকের ক্ষেত্রে শতকরা হার আর তা চিত্রের মাধ্যমে প্রকাশ করা ছাড়া খুব বেশী কিছু করার থাকে না। একটি উদাহরণ দিয়ে বার চার্ট তৈরী করা দেখিয়েছিলাম। সেই সাথে পাই চার্ট তৈরী করার জন্য বাড়ীর কাজ দিয়েছিলাম। যারা করেছেন তাদের ধন্যবাদ, আর যারা করেন নি তারা সময় করে সম্পন্ন করবেন বলে আশা করছি। কোন প্রশ্ন থাকলে অবশ্যই ইমেইল করবেন।
কোয়ান্টিটেটিভ ভ্যারিয়েবলের সামারি স্ট্যাটিসটিক্স
কোয়ান্টিটেটিভ ভ্যারিয়েবলের (Quantitative Variable) অনেক ধরনের সামারি স্ট্যাটিসটিক্স করা যায়। মনে করা যেতে পারে যে কোয়ালিটেটিভ ভ্যারিয়েবলের (Qualitative Variable) জন্য আমরা প্রথমেই ঘটন সারণী বা ফ্রিকোয়েন্সী টেবিল (Frequency Table) তৈরী করেছিলাম। তাত্তিকভাবে কোয়ান্টিটেটিভ ভ্যারিয়েবলের ক্ষেত্রেও ফ্রিকোয়েন্সি টেবিল করা যায়। কিন্তু অধিকাংশ ক্ষেত্রেই এরকম ফ্রিকোয়েন্সি টেবিল থেকে আমরা দরকারি কোন তথ্য পাই না। তাহলে কি আমরা কোয়ান্টিটেটিভ ভ্যারিয়েবলের জন্য ফ্রিকোয়েন্সি টেবিল তৈরী করব না? অবশ্যই তৈরী করবো, কিন্তু সেটি করবো একটু অন্যভাবে। একটি উদাহরণের মাধ্যমে ব্যাপারটা পরিষ্কার করা যাক।
ধরা যাক আমাদের কাছে কিছু উপাত্ত আছে যেখানে একটি ভ্যারিয়েবল হচ্ছে পাশ — অর্থাৎ পরীক্ষায় পাশ করেছে কি করেনি, এবং আরেকটি ভ্যারিয়েবল হচ্ছে বয়স। চিত্র-১ এ ভ্যারিয়েবল দুটির কিছু মান এবং তাদের ফ্রিকোয়েন্সি টেবিল তৈরী করে তাদের তুলনা করা হলো।
আমরা দেখতে পাচ্ছি বয়স ভ্যারিয়েবলটির ফ্রিকোয়েন্সি টেবিল থেকে আমরা আসলে দরকারি কোন তথ্য পাচ্ছি না। টেবিল থেকে শুধু এটুকু দেখতে পাচ্ছি যে প্রত্যেকটি বয়স মাত্র একবার করে এসেছে। আর তাই প্রত্যেকটির শতকরা হারও একই—১৪.২৮% . অন্যদিকে কোয়ালিটেটিভ ভ্যারিয়বলের দুটি সম্ভাব্য মান—পাশ করেছে, পাশ করেনি—প্রত্যেকটি তিন বার করে এসেছে এবং এদের শতকরা হার ৫০।
আমরা আরো দেখতে পাচ্ছি “পাশের” টেবিলটি অনেক ছোট এবং “বয়সের” টেবিলটি সে তুলনায় অনেক বড়। ভেবে দেখুন প্রত্যেকটি ভ্যারিয়েবলের জন্য উপাত্তের পরিমাণ যদি অনেক বেশী হতো তাহলে টেবিলগুলো কেমন হতো। কোয়ালিটেটিভ ভ্যারিয়বলের (পাশ করেছে কি করেনি) ক্ষেত্রে উপাত্ত যত বেশীই থাকুক না কেন টেবিলের আকার একই থাকতো। শুধু ঘটন সংখ্যার পরিবর্তন হতো। অন্যদিকে বয়স ভ্যারিয়েবলের ক্ষেত্রে যদি অনেক বেশী উপাত্ত থাকতো এবং প্রত্যেকটি মান যদি এরকম আলাদা আলাদা হতো তাহলে টেবিলের আকার অনেক বড় হয়ে যেতো। সেক্ষেত্রে আমাদের মূল উদ্দেশ্য যে উপাত্তকে সামারাইজ করা– সেটিই ব্যাহত হতো।
এই সমস্যা থেকে বাঁচতে কোয়ান্টিটেটিভ ভ্যারিয়েবলের জন্য ফ্রিকোয়েন্সি টেবিল আমরা একটু ভিন্ন ভাবে তৈরী করবো। এর জন্য প্রথমে বয়স ভ্যারিয়েবলটিকে কয়েকটি ছোট ছোট গ্রুপে বা শ্রেনীতে (Class) ভাগ করব। যেমন বয়স ৫এর কম, ৫ থেকে ১০ এর কম, ১০ থেকে ১৫এর কম, এভাবে ছোট ছোট বয়স-ভিত্তিক শ্রেনীতে (Class) ভাগ করবো।
উপরের উদাহরণে বয়সের যে উপাত্ত দেয়া হয়েছে তার জন্য এরকম শ্রেনী হতে পারে ২০ থেকে ২৫ এর কম, ২৫ থেকে ৩০ এর কম এবং ৩০ বা তার বেশী। বয়সগুলোকে এরকম ছোট ছোট গ্রুপে ভাগ করে প্রত্যেকটি শ্রেনীতে কতটি বয়স আছে তার ফ্রিকোয়েন্সি বের করলে ফ্রিকোয়েন্সি টেবিলটি দেখতে নিম্মরূপ হবে।
চিত্র-২ থেকে আমরা বয়স সম্পর্কে চিত্র-১ এর তুলনায় অনেক বেশী অর্থবহ তথ্য পাচ্ছি। চিত্র-২ থেকে আমরা জানতে পারছি যে প্রায় ৪৩ শতাংশের বয়স ২৫ এর কম এবং বাকী প্রায় ৭৫ শতাংশের বয়স ২৫ বা তার বেশী। আরো নির্দিষ্টভাবে বলতে গেলে প্রায় ২৯ শতাংশের বয়স ২৫ থেকে ৩০ এর মধ্যে, এবং ২৯%এর বয়স ৩৫ বা তার বেশী। টেবিল থেকে দেখা যাচ্ছে যে ৩০ থেকে ৩৫ বছর বয়সের কেউ আমাদের উপাত্তে নেই।
কোয়ান্টিটেটিভ ভ্যারিয়েবলকে চিত্রের মাধ্যমে প্রকাশ করতে আমরা হিস্টোগ্রাম ব্যবহার করি। নীচে হিস্টোগ্রাম নিয়ে বিস্তারিত আলোচনা করা হল।
হিস্টোগ্রাম (Histogram) ও উপাত্তের আকার (Shape of the data)
হিস্টোগ্রামের মাধ্যমে কোয়ান্টিটেটিভ ভ্যারিয়েবলের ফ্রিকোয়েন্সি ডিস্ট্রিবিউশন (Frequency distribution) বা ঘটন বিন্যাসকে চিত্রের মাধ্যমে প্রকাশ করা যায়। এর জন্য প্রথমেই উপাত্তকে কয়েকটি শ্রেনীতে ভাগ করে নিতে হয়। শ্রেনীবদ্ধ করার পর প্রত্যেকটি শ্রেনীর ফ্রিকোয়েন্সি বা ঘটন সংখ্যা বের করতে হয় এবং সবগুলো শ্রেনীর ঘটন সংখ্যা বের করার পরে তা টেবিলে সাজাতে হয়। উপরে চিত্র-১ ও ২ এ আমরা ফ্রিকোয়েন্সি টেবিল তৈরী করা দেখিয়েছি। তাছাড়া লেকচার-২ এ ভিডিওর মাধেমে দেখিয়েছিলাম কিভাবে এক্সেল ২০১০-এ ফ্রিকোয়েন্সি টেবিল তৈরী করা যায়।
মনে করা যেতে পারে আমরা একটি জরীপ করেছিলাম। সেখানে অংশগ্রহণকারীদের বয়সের উপাত্ত সংগ্রহ করা হয়েছিল। এখন আমি জরীপে অংশগ্রহণকারীদের বয়সের ফ্রিকোয়েন্সি ডিস্ট্রিবিউশন এবং তা থেকে হিস্টোগ্রাম এঁকে দেখাবো। পুরো জিনিসটাই আমি এক্সেলে করে দেখাবো।
হিস্টোগ্রাম তৈরী করার ধাপসমূহ
১) প্রথমেই বয়সের কলামটিকে আলাদা একটি ওয়ার্কশিটে কপি করে নিন।
২) এর পর সর্বনিম্ন ও সর্বোচ্চ বয়স বের করে নিন। এটা করার জন্য এক্সের-এর MIN() এবং MAX() ফাংশন দুটো ব্যবহার করতে পারেন। আমাদের ড্যাটায় সর্বোচ্চ বয়স = ৩৭ বছর আর সর্বনিম্ন বয়স = ২০ বছর।
৩) সর্বোচ্চ ও সর্বনিম্ম বয়সের ব্যবধান বের করুন। আমাদের ক্ষেত্রে এটি ৩৭-২০ = ১৭।
৪) বয়সগুলোকে আমরা ৫ থেকে ৬টি শ্রেনীতে ভাগ করবো। উপাত্তের সংখ্যার উপর ভিত্তি করে এটি বাড়তে বা কমতে পারে। তবে সাধারণত ৫এর কম হলে হিস্টোগ্রাম ভাল দেখায় না। আর দশের বেশি সাধারণত দরকার হয় না।
৫) ৫/৬টি শ্রেনীতে ভাগ করার জন্য শ্রেনী ব্যবধান কত হবে তা বের করতে হবে। এজন্য সর্বোচ্চ ও সর্বনিম্ন বয়সের ব্যবধানকে আমরা ৫ বা ৬ দিয়ে ভাগ দিতে পারি। আমি ৫ দিয়ে ভাগ দিয়েছি। নিচের চিত্রে দেখুন। শ্রেনী ব্যবধান পেলাম ৪।
৬) এবারে এক্সেলে বয়সের কলামের পাশে আরেকটি কলামে শ্রেনী ব্যবধানগুলো লিখতে হবে। খেয়াল রাখতে হবে যে প্রতিটি শ্রেনী ব্যবধানের উচ্চ সীমাটি শুধু লিখতে হবে। যেমন বয়সের শ্রেনী ব্যবধান ২০-২৩ হলে আমরা শুধু ২৩ লিখব। ভিডিওতে বিস্তারিত দেখিয়েছি।
৭) এবার এক্সেল (২০১০) এর Data মেনু থেকে Data Analysis টুল সিলেক্ট করে Histogram বেছে নিন।
৮) ইনপুট রেন্জ (Input range) এর জন্য বয়সের কলামটি এবং বিন রেন্জ (Bin range) এর জন্য শ্রেনী বিন্যাসের কলামটি বেছে নিন।
৯) ডায়ালগ বক্সের নিচের দিকে Chart output এ টিক চিহ্ন দিয়ে সিলেক্ট করে নিন।
১০) এর পর OK ক্লিক করুন।
ওকে করার পরে নিচের চিত্রের মত চিত্র আপনি পাবেন না তবে যেটি পাবেন সেটা থেকে এরকম চিত্র কিভাবে করা হয সেটা ভিডিওতে দেখিয়েছি। চিত্রে লাল রঙের যে রেখা দেখতে পাচ্ছেন সেটি আপনি দেখতে পাবেন না। এটি আমি হাতে এঁকেছি।
ইউটিউবে হিস্টোগ্রাম আঁকা দেখুন
হিস্টোগ্রাম থেকে আমরা যা পেলাম–
- কোন্ বয়স-শ্রেনীতে সর্বাধিক শিক্ষার্থী আছে (যেটিকে শতকরা হিসাবেও প্রকাশ করা যায়।)
- কোন্ বয়স-শ্রেনীতে সবচেয়ে বেশী শিক্ষার্থী আছে।
- বয়সের বিন্যাসের আকার (shape of the age-distribution)
এর মধ্যে গুরুত্তপূর্ণ হল বিন্যাসের আকার বা শেইপ। এখন আমরা ড্যাটার শেইপ সম্পর্কে একটু আলোচনা করবো। শেইপ খুবই গুরুত্বপূর্ণ একটি বিষয়। বিশেষ করে সম্ভাবনার বিন্যাস এবং হাইপোথিসিস টেস্ট ভালো করে বোঝার জন্য ডিস্ট্রিবিউশন-এর আকার (shape of the distribution) সম্পর্কে স্বচ্ছ ধারণা থাকা দরকার।
ডিস্ট্রিবিউশন ব্যপারটা কী
ডিস্ট্রিবিউশনের বাংলা করলে বলা যায় “ছড়ানো”, “বিন্যাস” বা এরকম কিছু “যা ছড়িয়ে আছে” কিংবা “যেভাবে ছড়িয়ে আছে”. ড্যাটা ডিস্ট্রিবিউশন অর্থ উপাত্তের বিন্যাস। হিস্টোগ্রামের মাধ্যমে আমরা উপাত্তের বিন্যাস চিত্রের মাধ্যমে প্রকাশ করে থাকি।
উপাত্তের বিন্যাস থাকলে সে বিন্যাসের কোন-না-কোন আকারও থাকে। নীচের চিত্রে তিনটি বিন্যাস হিস্টোগ্রামের মাধ্যমে দেখানো হল। প্রত্যেকটি বিন্যাসের শেইপ সম্পর্কে ধারণা দিতে লাল রংয়েরে মসৃন কার্ভ আঁকা হয়েছে।
চিত্র-৫ এ উপরের বামে যে বিন্যাস দেখতে পাচ্ছি সেটি প্রতিসম বিন্যাস বা symmetric distribution । উপরের ডানে যেটি দেখতে পাচ্ছি তাতে অধিকাংশ উপাত্তই বিন্যাসের বামদিকে রয়েছে আর খুব কম সংখ্যক উপাত্ত রয়েছে ডান দিকে। যে কারণে বিন্যাসটি ডান দিকে বেঁকে গিয়েছে বলে মনে হচ্ছে। এধরনের বিন্যাসকে অপ্রতিসম বা বাঁকানো (skewed) বিন্যাস বলা হয়। বাঁক যদি ডানে থাকে তাকে skewed-right বা skewed to the right বা right-skewed বিন্যাস বলে। আর বাঁক যদি বামে থাকে তাহলে skewed-left or skewed to the left বা left-skewed বিন্যাস বলে।
আমি আবারো বলছি — বিন্যাসের ব্যাপারটা খুবই গুরুত্বপূর্ণ।
সারাংশ
এ পর্বে আমরা কোয়ান্টিটেটিভ বা সংখ্যাবাচক ভ্যারিয়েবল নিয়ে কাজ করেছি। সংখ্যাবচক ভ্যারিয়েবল থেকে কিভাবে হিস্টোগ্রাম তৈরী করা যায় সেটি দেখেছি। সেই সাথে গুরুত্বপূর্ণ একটি বিষয় সম্পর্কে আমরা জেনেছি—সেটি হল বিন্যাসের আকার বা shape of the distribution।
আজ এ পর্যন্তই থাক। কোন প্রশ্ন বা পরামর্শ থাকলে ইমেইল করতে ভুলবেন না।
সবাইকে সাথে থাকার জন্য ধন্যবাদ।
আগের লেকচার-এর লিংক
লেকচার ২ – গবেষণা পদ্ধতি ও চলক সম্পর্কে ধারণা
লেকচার ৩ – ড্যাটা সামারি বা উপাত্ত সারাংশ (কোয়ালিটেটিভ ভ্যারিয়েবল)
5 pings
পরিসংখ্যান পরিচিতি - লেকচার ৫ - কেন্দ্রীয় প্রবণতা ও তার পরিমাপসমূহ - শিক্ষক - বাংলা ভাষায় অনলাইন
ফেব্রুয়ারী 21, 2013 at 11:04 অপরাহ্ন (UTC -5) Link to this comment
[…] গত পর্বে সংখ্যাবাচক চলক বা কোয়ান্টিটেটিভ ভ্যারিয়েবল (Quantitative variable) নিয়ে কাজ করেছিলাম। সংখ্যাবাচক চলকের ক্ষেত্রে সামারি স্ট্যাটিসটিক্স কিভাবে বের করে সেটা দেখিয়েছিলাম। মূলত হিস্টোগ্রাম আঁকা শিখেছিলাম এবং ড্যাটার শেইপ নিয়ে আলোচনা করেছিলাম। বলেছিলাম যে শেইপের ধারণাটি খুবই গুরুত্বপূর্ণ। […]
পরিসংখ্যান পরিচিতি লেকচার ৭: তুলনামূলক অবস্থান ও z-score
ফেব্রুয়ারী 21, 2013 at 11:14 অপরাহ্ন (UTC -5) Link to this comment
[…] লেকচার ৪ – হিস্টোগ্রাম ও ড্যাটার শেইপ […]
পরিসংখ্যান পরিচিতি - সম্ভাবনা (Probability) ও এর মৌলিক বিষয়সমূহ
ফেব্রুয়ারী 23, 2013 at 12:33 অপরাহ্ন (UTC -5) Link to this comment
[…] লেকচার ৪ – হিস্টোগ্রাম ও ড্যাটার শেইপ […]
পরিসংখ্যান পরিচিতি – লেকচার ৯ – গণনার পদ্ধতিসমূহ – Counting Techniques
এপ্রিল 8, 2013 at 7:01 অপরাহ্ন (UTC -5) Link to this comment
[…] লেকচার ৪ – হিস্টোগ্রাম ও ড্যাটার শেইপ […]
পরিসংখ্যান পরিচিতি – লেকচার ১১ – কতিপয় জটিল ঘটনার সম্ভাবনা- Probability of Complex Events
জুন 2, 2013 at 3:47 অপরাহ্ন (UTC -5) Link to this comment
[…] লেকচার ৪ – হিস্টোগ্রাম ও ড্যাটার শেইপ […]