[নিবন্ধনের লিংক] [কোর্সের মূল পাতা]
পরিসংখ্যান পরিচিতি – লেকচার-৩
এনায়েতুর রহীম
ভিডিও-ডাউনলোড লিংক
3gp ফরম্যাট (১২ মেগা, ১২ মিনিট)
MP4 ফরম্যাট (১০৫ মেগা, ১২ মিনিট)
পূর্বালোচনা
গত পর্বে গবেষণা পদ্ধতি এবং চলক (ভ্যারিয়েবল) সম্পর্কে আলোচনা করেছিলাম। ভ্যারিয়েবল দুই ধরনের হয়—গুনবাচক বা কোয়ালিটেটিভ ভ্যারিয়েবল এবং সংখ্যাবাচক বা নিউমেরিক্যাল ভ্যারিয়েবল। নিউমেরিক্যাল ভ্যারিয়েবল আবার দু্ই ধরনের হয় – ডিসক্রিট ভ্যারিয়েবল বা বিচ্ছিন্ন চলক এবং কন্টিনিউয়াস ভ্যারিয়েবল বা অবিচ্ছিন্ন চলক।
এ পর্বে আমরা উপাত্ত থেকে মূলত: সামারি স্ট্যাটিসটিক্স বের করার চেষ্টা করবো। একই সাথে আমরা চিত্রের মাধ্যমেও উপাত্ত কে সামারাইজ করার চেষ্টা করবো।
সামারি স্ট্যাটিসটিক্স (Summary Statistics)
নাম থেকেই আমরা বুঝতে পারছি উপাত্ত থেকে ভ্যারিয়েবল গুলোকে বর্ণনা/ব্যাখ্যা করে এমন কিছু তথ্যের কথা বলা হচ্ছে। এ তথ্য হতে পারে কোন নাম্বার (number) যা সংখ্যাকারে কিংবা চিত্রাকারে (graph) প্রকাশ করা যায়। এরকম সংখ্যাবাচক তথ্য যা উপাত্তকে রেপ্রিজেন্ট করে তাকে সামারি স্ট্যাটিসটিক্স (Summary statistics) বলে।
এখানে একটি বিষয় পরিষ্কার করে নেই। Summary statistic (without the s at the end) হল একবচন; আর বহুবচন হল summary statistics। এটা একটু মাথায় রাখতে হবে।
সামারি স্ট্যাটিসটিক এমন একটি সংখ্যা যা দিয়ে কোন ভ্যারিয়েবলের কোন একটা দিক সম্পর্কে সার্বিক ধারণা পাওয়া যায়। প্রথম লেকচারে এসএসসি পরীক্ষায় পাশের হারের উদাহরণ দিয়েছিলাম। পাশের হার ৮০% বা ৮৫%– এরকম যে সংখ্যা দিয়ে এসএসসি পরীক্ষার অংশগ্রহণকারী শিক্ষার্থীদের ফলাফলের একটি দিক সম্পর্কে আমরা অবগত হই সেটি একটি (সামারি) স্ট্যাটিসটিক। তেমনি পরীক্ষায় মেয়েদের মধ্য পাশের হার ৯০% — এটি একটি (সামারি) স্ট্যাটিসটিক।
একটু পেছনে তাকানো যাক। পাশের শতকরা হার বের করেছি যে ভ্যারিয়েবল থেকে সেটি এমন একটি ভ্যারিয়েবল যার মান হতে পারে –
ক) পাশ করেছে
খ) পাশ করেনি
এর পর উপাত্তে যতগুলো “পাশ করেছে” পাওয়া গিয়েছে তার মোট সংখ্যাকে মোট পরীক্ষার্থীর সংখ্যা দিয়ে ভাগ দিয়ে ১০০ দিয়ে গুন করে পাশের শতকরা হার বের করা হয়েছে।
কোয়ালিটেটিভ বা গুনবাচক ভ্যারিয়েবলের ক্ষেত্রে সামারি স্ট্যাটিসটিক হতে পারে শতকরা (percentage), মোট (total), আর নিউমেরিক্যাল বা সংখ্যাবাচক ভ্যারিয়েবলের ক্ষেত্রে শতকরা হার, সর্বোচ্চ মান (maximum), সর্বনিম্ন মান (minimum), গড় মান (average), ইত্যাদি স্ট্যাটিসটিক্স বের করা যায়।
ফ্রিকোয়েন্সি বা ঘটন সংখ্যা কী?
একটা উদাহরণের মাধ্যমে বোঝার চেষ্টা করি।
ধরা যাক গবেষক মতলব ব্যাংকে টাকা জমা দিতে যাবেন। যাওয়ার আগে ঠিক করলেন তার কাছে কত টাকা আছে সেটা আগে গুনে দেখবেন। তিনি সবগুলো টাকা হাতে নিয়ে গণনা শুরু করলেন। তার কাছে কতগুলো পাঁচশ টাকা, কতগুলো একশ টাকা, কতগুলো পঞ্চাশ, কতগুলো বিশ, দশ, পাঁচ আর কতগুলো এক টাকার নোট। এত ভিন্ন ভিন্ন নোটের কারণে তিনি বারবার খেই হারিয়ে ফেলছেন; কিছুতেই ঠিক ভাবে গুনতে পারছেন না। তাই ঠিক করলেন টাকাগুলো একবারে না গুনে প্রত্যেকটি নোট কতটি করে আছে তার হিসাব আগে বের করবেন। তারপর সেখানে থেকে গুনতে সহজ হবে।
এমনটি ভেবে মতলব নীচের মতো করে একটা সারণী তৈরী করলেন।
নোট | যতগুলো নোট আছে (ফ্রিকোয়েন্সি/ঘটন সংখ্যা) | টাকা গণনা | টাকার পরিমান |
৫০০ টাকা | ২ টি | ৫০০ গুনন ২ | ১,০০০ |
১০০ টাকা | ১১ টি | ১০০ গুনন ১১ | ১,১০০ |
৫০ টাকা | ৩ টি | ৫০ গুনন ৩ | ১৫০ |
২০ টাকা | ৭ টি | ২০ গুনন ৭ | ১৪০ |
১০ টাকা | ৪ টি | ১০ গুনন ৪ | ৪০ |
৫ টাকা | ২ টি | ৫ গুনন ২ | ১০ |
১ টাকা | ১৩ টি | ১ গুনন ১৩ | ১৩ |
মোট | নোটের সংখ্যা = ৪২টি |
| ২,৪৫৩ |
সারণী তৈরী হয়ে গেলে গবেষক মতলব সহজেই গুনে ফেললেন যে তার কাছে দুই হাজার চারশত তিপ্পান্ন টাকা আছে।
তাহলে আমরা যা দেখলাম—অনেকগুলো টাকার নোট যেগুলো একসাথে এলোমেলে অব্স্থায় ছিল সেখান থেকে একটা সারণী বানিয়ে দেখা গেলো যে মোট টাকার পরিমান ২,৪৫৩. পরিসংখ্যানের ভাষায় চিন্তা করলে নোটগুলোকে উপাত্ত বলা চলে। সেই উপাত্তকে সাজিয়ে অর্থাৎ সামারাইজ (summarize) করে আমরা একটি তথ্য (information) পেলাম যেটি হলো টাকার পরিমান। এই যে মোট টাকার পরিমান—এটি একটি স্ট্যাটিসটিক। অর্থাৎ স্ট্যাটিসটিক (বা পরিসংখ্যান, একবচন) শব্দটি একটি সংখ্যা নির্দেশক হিসেবে ব্যবহৃত হচ্ছে। উপরে আমরা আরো কয়েকটি উদাহরণ দিয়েছিলাম, যেমন- পাশের হার। এরকম স্ট্যাটিসটিকের আরো উদাহরণ হল—সাকিব আল হাসানের টেস্টে শতকের সংখ্যা, একদিনের ম্যাচে তার রানের গড় ইত্যাদি।
জরিপের উপাত্ত সামারাইজ করা
গত পর্বে আমরা একটা জরীপ পরিচালনা করেছিলাম। এবার সেই জরিপ থেকে প্রাপ্ত উপাত্ত নিয়ে কিছু স্ট্যাটিসটিক্স বের করবো। জরীপটি শুরু করার তিন দিনের মধ্যে যেসব তবে তার আগে আমরা দেখব উপাত্তটিতে কি কি ধরনের ভ্যারিয়েবল আছে। নিচের সারণীতে আমরা ভ্যারিয়েবল গুলোকে তাদের ধরনের উপর ভিত্তি করে সাজালাম। উল্লেখ্য যে উদাহরণ হিসেবে শুধু কয়েকটি ভ্যারিয়েবল দেখানো হল।
সারণী: পরিসংখ্যান পরিচিতি কোর্সে নমুনা জরিপ থেকে প্রাপ্ত উপাত্তে ভ্যারিয়েবল ও তাদের ধরন।
ভ্যারিয়েবল / চলক | ভ্যারিয়েবলের ধরন | সম্ভাব্য সামারি স্ট্যাটিসটিক্স |
পরিসংখ্যান পরিচিতি কোর্সে রেজিস্ট্রেশন করেছেন কিনা | গুনবাচক | শতকরা |
শিক্ষক ডট কমে কতটি কোর্স করেছেন | সংখ্যাবাচক | শতকরা (যেভাবে ড্যাটা সংগ্রহ করা হয়েছে সে কারণে) |
শিক্ষক ডট কম সম্পর্কে জেনেছেন যেভাবে | গুনবাচক | শতকরা |
বাংলাদেশের অর্থনৈতিক উন্নয়নের প্রধান বাধা যেটিকে মনে করেন | গুনবাচক | শতকরা |
লিঙ্গ | গুনবাচক | শতকরা |
বয়স | সংখ্যাবাচক-বিচ্ছিন্ন চলক(নিউমেরিক্যাল – ডিসক্রিট) | শতকরা, গড়, সর্বোচ্চ মান, সর্বনিম্ন মান |
এরকম সারণী উপাত্ত বিশ্লেষণে খুব সহায়ক। এ থেকে এক নজরে ভ্যারিয়েবল গুলো সম্পর্কে পূর্ণ তথ্য পাওয়া যায় যা আমাদের সামারি স্ট্যাটিসটিক্স বের করতে এবং ভ্যারিয়েবলগুলোকে চিত্রের মাধ্যমে প্রকাশ করতে সহজ করবে।
ফ্রিকোয়েন্সি টেবিল বা ঘটন সারণী
প্রথমেই আমরা ভ্যারিয়েবল গুলোর জন্য ফ্রিকোয়েন্সি টেবিল (Frequency table) বা ঘটন সারণী তৈরি করবো। প্রতিটি ভ্যারিয়েবলের জন্য আলাদা আলাদা করে ফ্রিকোয়েন্সি টেবিল তৈরি করতে হবে।
ফ্রিকোয়েন্সি টেবিলে কোন একটি ভ্যারিয়েবলের মানগুলো প্রত্যেকটি কতবার এসেছে তা প্রদর্শন করা হয়।
নিচে দুটি সারণীর চিত্র দেয়া হয়েছে। সারণীর নীচে নীচে আলোচনা করেছি এই সারণীগুলো থেকে আমরা কী তথ্য পেলাম। উল্লেখ্য যে, সারণীতে ঘটন সংখ্যাকে শতকরায় প্রকাশ করা হয়েছে। ভিডিওতে বিস্তারিত দেখানো হয়েছে কিভাবে ফ্রিকোয়েন্সি টেবিল তৈরী করা হয় আর সেখান থেকে ফ্রিকোয়েন্সি গুলোকে শতকরায় প্রকাশ করা হয়।
প্রথমেই চিত্র ১ বা সরণী-১ এর দিকে তাকাই। আমরা দেখতে পাচ্ছি জরিপে অংশগ্রহণকারীদের প্রায় ৬৬ শতাংশ পরিসংখ্যান পরিচিতি কোর্সে রেজিস্ট্রেশন করেছে। বাকী প্রায় ৩৪% অংশগ্রহণকারী কোর্সে রেজিস্ট্রেশন করেনি।
উল্লেখ্য যে কোর্সে রেজিস্ট্রেশন করলে প্রশিক্ষকের কাছ থেকে মাঝে মাঝে ইমেইল পাওয়া যাবে এবং এর মাধ্যমে প্রশিক্ষকের সাথে সরাসরি যোগাযোগেরও সুযোগ হবে। সারণী-১ এবং চিত্র-১ থেকে প্রাপ্ত গুরুত্বপূর্ণ তথ্যটি হলো প্রায় এক তৃতীয়াংশ অংশগ্রহণকারী প্রশিক্ষকের কাছ থেকে সরাসরি কোর্স সম্পর্কিত ইমেল পাওয়ার সুযোগ থেকে বঞ্চিত হবে।
সারণী-২ এ জরিপে অংশগ্রহণকারীদের লিঙ্গ ভেদে শিক্ষক ডট কম সাইটের অন্যান্য কোর্সে রেজিস্ট্রেশনের শতকরা হার দেখানো হয়েছে। এই সারণী থেকে আমরা বেশ কয়েকটি তথ্য পাই।
প্রথমত: সার্বিকভাবে মাত্র ১২% মহিলা শিক্ষার্থী এই জরিপে অংশগ্রহণ করেছে। যদি নমুনাটিকে আমরা শিক্ষক ডট কমের শিক্ষার্থীদের জনগোষ্ঠী (student population) থেকে দৈব চয়িত নমুনা (random sample) হিসেবে চিন্তা করি (মনে রাখা ভালো যে এটি কোন বিজ্ঞান সম্মত জরিপ ছিলনা), তাহলে দেখতে পাই শিক্ষক ডট কমের শিক্ষার্থীদের মধ্যে শতকরা পুরুষ শিক্ষার্থীর সংখ্যা শতকরা মহিলা শিক্ষার্থীর সংখ্যার তুলনায় কয়েকগুন বেশী।
দ্বিতীয়ত: জরিপে অংশগ্রহণকারী শিক্ষার্থীদের প্রায় ৪১% ই নতুন অর্থাৎ এর আগে তারা শিক্ষক ডট কমে অন্য কোন কোর্সে অংশ নেয়নি। আরো দেখতে পাই যে প্রায় ২৫% শিক্ষার্থী পরিসংখ্যান পরিচিতি কোর্সের পাশাপাশি অন্য একটি কোর্সে অংশ নিয়েছে, ১৮% শিক্ষার্থী দুটি কোর্সে অংশ নিয়েছে এবং প্রায় ১৬% শিক্ষার্থী তিন বা ততোধিক কোর্সে অংশ নিয়েছে।
সারণী-২ এর তথ্যকে আমরা চিত্রের মাধ্যমেও প্রকাশ করতে পারি। অনেক সময় চিত্রের মাধ্যেমে প্রকাশ করলে অনেক তথ্য নতুন করে ধরা পড়ে যা সারণী দেখে আমরা অনুধাবন করি না। এছাড়া চিত্র সহজেই বোঝা যায়।
উপরের চিত্রটি এক ধরনের লেখস্তম্ভ বা bar chart। এই চিত্রটি কিভাবে তৈরী করা হয়েছে তা ভিডিওতে দেখানো হয়েছে।
আপনার কাছে প্রশ্ন: চিত্র-২ থেকে নতুন কী তথ্য আমরা “দেখতে” পাচ্ছি যা সারনী-২এও ছিল কিন্ত লক্ষ্য করা হয়নি?
এক্সেল-এ সারণী ও লেখচিত্রে তৈরীর পদ্ধতি
এবার আমরা নীচের ভিডিওতে দেখানোর চেষ্টা করবো কিভাবে মাইক্রোসফট এক্সেল-এ এরকম সারণী/চিত্র তৈরী করা যায়। বলে রাখা ভালো যে পরিসংখ্যানবিদগণ উপাত্ত বিশ্লেষণের জন্য এক্সেল ব্যবহার করেন না। তবে কোর্সটি যেহেতু সবার কথা মাথায় রেখে তৈরী করা হয়েছে আর এক্সেল আজকাল প্রায় সব অফিসেই ব্যবহার করা হয়, তাই এক্সেলে কিভাবে সারণী এবং চিত্রে গুলো তৈরী করা যায় তা দেখাচ্ছি।
উল্লেখ্য যে, আমি এক্সেলে দক্ষ নই। তাই ভিডিওতে যা দেখানো হয়েছে সেটিই যে সবচেয়ে এফিসিয়েন্ট পদ্ধতি এমনটা দাবী করছি না। আমি এক্সেল ২০১০ ভার্সন ব্যবহার করেছি। আমার কম্পিউটারে এরচে পুরনো কোন ভার্সন নেই। অতএব সে সম্পর্কিত কোন প্রশ্নের উত্তর দেয়া সম্ভব নাও হতে পারে। তবে চেষ্টা করবো।
ইউটিউবে দেখুন এক্সেলে সারণী তৈরি করা
ভিমিওতে দেখুন পরিসংখ্যান পরিচিতি- লেকচার-৩ from Enayetur Raheem
ব্যবহারিক
এতক্ষণ আমরা যা শিখলাম তা নিজেরা বাড়িতে অনুশীলন করবো এবং নীচের প্রশ্নগুলোর উত্তর দেয়ার চেষ্টা করবো।
প্রশ্ন ১) জরীপে অংশগ্রহণকারীদের কত শতাংশ মনে করে যে দুর্নীতিই অর্থনৈতিক উন্নয়নের প্রধান অন্তরায়? প্রথমে সারণীটি তৈরী করুন এবং তারপর প্রশ্নটির উত্তর দেয়ার চেষ্টা করুন।
প্রশ্ন ২) বাংলাদেশের অর্থনৈতিক উন্নয়নের প্রধান অন্তরায় সম্পর্কে নারী ও পুরুষের মধ্যে ভাবনার বিন্যাস টি সারণী ও পাই চিত্রের মাধ্যমে দেখান।
প্রশ্ন ৩) উপরের দুটি প্রশ্নের উত্তরে শুধুমাত্র পরিসংখ্যান পরিচিতি কোর্সে অংশগ্রহণকারীদের মতামত নিয়ে সারণী ও চিত্র তৈরী করুন।
শেষ কথা
এ পর্বে আমরা শুধু কোয়ালিটেটিভ বা গুনবাচক ভ্যারিয়েবল নিয়ে কাজ করেছি। পরবর্তী পর্বে আমি কোয়ান্টিটেটিভ বা সংখ্যাবাচক ভ্যারিয়েবল নিয়ে আলোচনা করবো। আমাদের উপাত্তে একটি মাত্র সংখ্যাবাচক ভ্যারিয়েবল আছে। সেটি হচ্ছে বয়স। পরবর্তী পর্বে সংখ্যাবাচক ভ্যারিয়েবলের সামারি স্ট্যাটিসটিক বের করার পদ্ধতি, চিত্রের মাধ্যেমে প্রকাশের পদ্ধতি এবং সংখ্যাবাচক উপাত্তের আকার (shape) নিয়ে আলোচনা করার আশা রাখছি।
কোন পরামর্শ থাকলে ইমেইল করতে ভুলবেন না।
সবাইকে সাথে থাকার জন্য ধন্যবাদ।
আগের লেকচার-এর লিংক
লেকচার ২ – গবেষণা পদ্ধতি ও চলক সম্পর্কে ধারণা
সংশোধনী
“শিক্ষক ডট কমে কতটি কোর্স করেছেন” সেটি অনবধনতাবশত গুনবাচক ভ্যারিয়েবল লেখা হয়েছিল। এটি আসলে সংখ্যাবাচক ভ্যারিয়েবল। নীচে মন্তব্যের প্রক্ষিতে আপডেট করা হলো। — জানুয়ারি ২২, ২০১৩
5 pings
পরিসংখ্যান পরিচিতি লেকচার ৭: তুলনামূলক অবস্থান ও z-score
ফেব্রুয়ারী 21, 2013 at 11:13 অপরাহ্ন (UTC -5) Link to this comment
[…] […]
পরিসংখ্যান পরিচিতি - সম্ভাবনা (Probability) ও এর মৌলিক বিষয়সমূহ
ফেব্রুয়ারী 23, 2013 at 12:29 অপরাহ্ন (UTC -5) Link to this comment
[…] […]
পরিসংখ্যান পরিচিতি – লেকচার ১১ – কতিপয় জটিল ঘটনার সম্ভাবনা- Probability of Complex Events
জুন 2, 2013 at 3:47 অপরাহ্ন (UTC -5) Link to this comment
[…] […]
পরিসংখ্যান পরিচিতি – লেকচার ১২ – দৈব চলক ও তার সম্ভাবনা বিন্যাস Random Variable and its Probability Distribution
আগস্ট 19, 2013 at 10:04 অপরাহ্ন (UTC -5) Link to this comment
[…] […]
পরিসংখ্যান পরিচিতি – লেকচার ১৩ – দ্বিপদ বিন্যাস (Binomial Distribution)
আগস্ট 19, 2013 at 10:08 অপরাহ্ন (UTC -5) Link to this comment
[…] […]