«

»

নভে. 30

পরিসংখ্যান পরিচিতি – লেকচার ৩ – ড্যাটা সামারি বা উপাত্ত সারাংশ

[নিবন্ধনের লিংক] [কোর্সের মূল পাতা]

পরিসংখ্যান পরিচিতি – লেকচার-৩

এনায়েতুর রহীম

ভিডিও-ডাউনলোড লিংক

3gp ফরম্যাট (১২ মেগা, ১২ মিনিট)

MP4 ফরম্যাট (১০৫ মেগা, ১২ মিনিট)

পূর্বালোচনা

গত পর্বে গবেষণা পদ্ধতি এবং চলক (ভ্যারিয়েবল) সম্পর্কে আলোচনা করেছিলাম। ভ্যারিয়েবল দুই ধরনের হয়—গুনবাচক  বা কোয়ালিটেটিভ ভ্যারিয়েবল এবং সংখ্যাবাচক বা নিউমেরিক্যাল ভ্যারিয়েবল। নিউমেরিক্যাল ভ্যারিয়েবল আবার দু্ই ধরনের হয় – ডিসক্রিট ভ্যারিয়েবল বা বিচ্ছিন্ন চলক এবং কন্টিনিউয়াস ভ্যারিয়েবল বা অবিচ্ছিন্ন চলক।

এ পর্বে আমরা উপাত্ত থেকে মূলত: সামারি স্ট্যাটিসটিক্স বের করার চেষ্টা করবো।  একই সাথে আমরা চিত্রের মাধ্যমেও উপাত্ত কে সামারাইজ করার চেষ্টা করবো।

সামারি স্ট্যাটিসটিক্স (Summary Statistics)

নাম থেকেই আমরা বুঝতে পারছি উপাত্ত থেকে ভ্যারিয়েবল গুলোকে বর্ণনা/ব্যাখ্যা করে এমন কিছু তথ্যের কথা বলা হচ্ছে। এ তথ্য হতে পারে কোন নাম্বার (number) যা সংখ্যাকারে কিংবা চিত্রাকারে (graph) প্রকাশ করা যায়। এরকম সংখ্যাবাচক তথ্য যা উপাত্তকে রেপ্রিজেন্ট করে তাকে সামারি স্ট্যাটিসটিক্স (Summary statistics) বলে।

এখানে একটি বিষয় পরিষ্কার করে নেই।  Summary statistic (without the s at the end) হল একবচন; আর বহুবচন হল summary statistics। এটা একটু মাথায় রাখতে হবে।

সামারি স্ট্যাটিসটিক এমন একটি সংখ্যা  যা দিয়ে কোন ভ্যারিয়েবলের কোন একটা দিক সম্পর্কে সার্বিক ধারণা পাওয়া যায়। প্রথম লেকচারে এসএসসি পরীক্ষায় পাশের হারের উদাহরণ দিয়েছিলাম। পাশের হার ৮০% বা ৮৫%– এরকম যে সংখ্যা দিয়ে এসএসসি পরীক্ষার অংশগ্রহণকারী শিক্ষার্থীদের ফলাফলের একটি দিক সম্পর্কে আমরা  অবগত হই সেটি একটি (সামারি) স্ট্যাটিসটিক। তেমনি পরীক্ষায় মেয়েদের মধ্য পাশের হার ৯০% — এটি একটি (সামারি) স্ট্যাটিসটিক।

একটু পেছনে তাকানো যাক। পাশের শতকরা হার বের করেছি যে ভ্যারিয়েবল থেকে সেটি এমন একটি ভ্যারিয়েবল যার মান হতে পারে –

ক) পাশ করেছে
খ) পাশ করেনি

এর পর উপাত্তে যতগুলো “পাশ করেছে” পাওয়া গিয়েছে তার মোট সংখ্যাকে মোট পরীক্ষার্থীর সংখ্যা দিয়ে ভাগ দিয়ে ১০০ দিয়ে গুন করে পাশের শতকরা হার বের করা হয়েছে।

কোয়ালিটেটিভ বা গুনবাচক ভ্যারিয়েবলের ক্ষেত্রে সামারি স্ট্যাটিসটিক হতে পারে  শতকরা (percentage), মোট (total),  আর নিউমেরিক্যাল বা সংখ্যাবাচক ভ্যারিয়েবলের ক্ষেত্রে শতকরা হার, সর্বোচ্চ মান (maximum), সর্বনিম্ন মান (minimum), গড় মান (average), ইত্যাদি স্ট্যাটিসটিক্স বের করা যায়।

ফ্রিকোয়েন্সি বা ঘটন সংখ্যা কী?

একটা উদাহরণের মাধ্যমে বোঝার চেষ্টা করি।

ধরা যাক গবেষক মতলব ব্যাংকে টাকা জমা দিতে যাবেন। যাওয়ার আগে ঠিক করলেন তার কাছে কত টাকা আছে সেটা আগে গুনে দেখবেন। তিনি সবগুলো টাকা হাতে নিয়ে গণনা শুরু করলেন। তার কাছে কতগুলো পাঁচশ টাকা, কতগুলো একশ টাকা, কতগুলো পঞ্চাশ, কতগুলো বিশ, দশ, পাঁচ আর কতগুলো এক টাকার নোট। এত ভিন্ন ভিন্ন নোটের কারণে তিনি বারবার খেই হারিয়ে ফেলছেন; কিছুতেই ঠিক ভাবে গুনতে পারছেন না। তাই ঠিক করলেন টাকাগুলো একবারে না গুনে প্রত্যেকটি নোট কতটি করে আছে তার হিসাব আগে বের করবেন। তারপর সেখানে থেকে গুনতে সহজ হবে।

এমনটি ভেবে মতলব নীচের মতো করে একটা সারণী তৈরী করলেন।

নোট

যতগুলো নোট আছে

(ফ্রিকোয়েন্সি/ঘটন সংখ্যা)

টাকা গণনা

টাকার পরিমান

৫০০ টাকা

২ টি

৫০০ গুনন ২

১,০০০

১০০ টাকা

১১ টি

১০০ গুনন ১১

১,১০০

৫০ টাকা

৩ টি

৫০ গুনন ৩

১৫০

২০ টাকা

৭ টি

২০ গুনন ৭

১৪০

১০ টাকা

৪ টি

১০ গুনন ৪

৪০

৫ টাকা

২ টি

৫ গুনন ২

১০

১ টাকা

১৩ টি

১ গুনন ১৩

১৩

মোট

নোটের সংখ্যা  = ৪২টি

 

২,৪৫৩

 

সারণী তৈরী হয়ে গেলে গবেষক মতলব সহজেই গুনে ফেললেন যে তার কাছে দুই হাজার চারশত তিপ্পান্ন টাকা আছে।

তাহলে আমরা যা দেখলাম—অনেকগুলো টাকার নোট যেগুলো একসাথে এলোমেলে অব্স্থায় ছিল সেখান থেকে একটা সারণী বানিয়ে দেখা গেলো যে মোট টাকার পরিমান ২,৪৫৩. পরিসংখ্যানের ভাষায় চিন্তা করলে নোটগুলোকে উপাত্ত বলা চলে। সেই উপাত্তকে সাজিয়ে অর্থাৎ সামারাইজ (summarize) করে আমরা একটি তথ্য (information) পেলাম যেটি হলো টাকার পরিমান। এই যে মোট টাকার পরিমান—এটি একটি স্ট্যাটিসটিক। অর্থাৎ স্ট্যাটিসটিক (বা পরিসংখ্যান, একবচন) শব্দটি একটি সংখ্যা নির্দেশক হিসেবে ব্যবহৃত হচ্ছে। উপরে আমরা আরো কয়েকটি উদাহরণ দিয়েছিলাম, যেমন- পাশের হার। এরকম স্ট্যাটিসটিকের আরো উদাহরণ হল—সাকিব আল হাসানের টেস্টে শতকের সংখ্যা, একদিনের ম্যাচে তার রানের গড় ইত্যাদি।

জরিপের উপাত্ত সামারাইজ করা

গত পর্বে আমরা একটা জরীপ পরিচালনা করেছিলাম। এবার সেই জরিপ থেকে প্রাপ্ত উপাত্ত নিয়ে কিছু স্ট্যাটিসটিক্স বের করবো। জরীপটি শুরু করার তিন দিনের মধ্যে যেসব তবে তার আগে আমরা দেখব উপাত্তটিতে কি কি ধরনের ভ্যারিয়েবল আছে। নিচের সারণীতে আমরা ভ্যারিয়েবল গুলোকে তাদের ধরনের উপর ভিত্তি করে সাজালাম। উল্লেখ্য যে উদাহরণ হিসেবে শুধু কয়েকটি ভ্যারিয়েবল দেখানো হল।

সারণী: পরিসংখ্যান পরিচিতি কোর্সে নমুনা জরিপ থেকে প্রাপ্ত উপাত্তে ভ্যারিয়েবল ও তাদের ধরন।

ভ্যারিয়েবল / চলকভ্যারিয়েবলের ধরনসম্ভাব্য সামারি স্ট্যাটিসটিক্স
পরিসংখ্যান পরিচিতি কোর্সে রেজিস্ট্রেশন করেছেন কিনাগুনবাচকশতকরা
শিক্ষক ডট কমে কতটি কোর্স করেছেনসংখ্যাবাচকশতকরা (যেভাবে ড্যাটা সংগ্রহ করা হয়েছে সে কারণে)
শিক্ষক ডট কম সম্পর্কে জেনেছেন যেভাবেগুনবাচকশতকরা
বাংলাদেশের অর্থনৈতিক উন্নয়নের প্রধান বাধা যেটিকে মনে করেনগুনবাচকশতকরা
লিঙ্গগুনবাচকশতকরা
বয়সসংখ্যাবাচক-বিচ্ছিন্ন চলক(নিউমেরিক্যাল – ডিসক্রিট)শতকরা, গড়, সর্বোচ্চ মান, সর্বনিম্ন মান

 

এরকম সারণী উপাত্ত বিশ্লেষণে খুব সহায়ক। এ থেকে এক নজরে ভ্যারিয়েবল গুলো সম্পর্কে পূর্ণ তথ্য পাওয়া যায় যা আমাদের সামারি স্ট্যাটিসটিক্স বের করতে এবং ভ্যারিয়েবলগুলোকে চিত্রের মাধ্যমে প্রকাশ করতে সহজ করবে।

ফ্রিকোয়েন্সি টেবিল বা ঘটন সারণী

প্রথমেই আমরা ভ্যারিয়েবল গুলোর জন্য ফ্রিকোয়েন্সি টেবিল (Frequency table) বা ঘটন সারণী তৈরি করবো। প্রতিটি ভ্যারিয়েবলের জন্য আলাদা আলাদা করে ফ্রিকোয়েন্সি টেবিল তৈরি করতে হবে।

ফ্রিকোয়েন্সি টেবিলে কোন একটি ভ্যারিয়েবলের মানগুলো প্রত্যেকটি কতবার এসেছে তা প্রদর্শন করা হয়।

নিচে দুটি সারণীর চিত্র দেয়া হয়েছে। সারণীর নীচে নীচে আলোচনা করেছি এই সারণীগুলো থেকে আমরা কী তথ্য পেলাম। উল্লেখ্য যে, সারণীতে ঘটন সংখ্যাকে শতকরায় প্রকাশ করা হয়েছে। ভিডিওতে বিস্তারিত দেখানো হয়েছে কিভাবে ফ্রিকোয়েন্সি টেবিল তৈরী করা হয় আর সেখান থেকে ফ্রিকোয়েন্সি গুলোকে শতকরায় প্রকাশ করা হয়।

 

চিত্র ১: জরিপে অংশগ্রহণকারীদের পরিসংখ্যান পরিচিতি কোর্সে রেজিস্ট্রেশনের শতকরা হার।

সারণী ১: জরিপে অংশগ্রহণকারীদের পরিসংখ্যান পরিচিতি কোর্সে রেজিস্ট্রেশনের শতকরা হার।

জরিপে অংশগ্রহণকারীদের পরিসংখ্যান পরিচিতি কোর্সে রেজিস্ট্রেশনের শতকরা হার।

চিত্র ১: জরিপে অংশগ্রহণকারীদের পরিসংখ্যান পরিচিতি কোর্সে রেজিস্ট্রেশনের শতকরা হার।

প্রথমেই চিত্র ১ বা সরণী-১ এর দিকে তাকাই। আমরা দেখতে পাচ্ছি জরিপে অংশগ্রহণকারীদের প্রায় ৬৬ শতাংশ পরিসংখ্যান পরিচিতি কোর্সে রেজিস্ট্রেশন করেছে। বাকী প্রায় ৩৪% অংশগ্রহণকারী কোর্সে রেজিস্ট্রেশন করেনি।

উল্লেখ্য যে কোর্সে রেজিস্ট্রেশন করলে প্রশিক্ষকের কাছ থেকে মাঝে মাঝে ইমেইল পাওয়া যাবে এবং এর মাধ্যমে প্রশিক্ষকের সাথে সরাসরি যোগাযোগেরও সুযোগ হবে। সারণী-১ এবং চিত্র-১ থেকে প্রাপ্ত গুরুত্বপূর্ণ তথ্যটি হলো প্রায় এক তৃতীয়াংশ অংশগ্রহণকারী প্রশিক্ষকের কাছ থেকে সরাসরি কোর্স সম্পর্কিত ইমেল পাওয়ার সুযোগ থেকে বঞ্চিত হবে।

 

জরিপে অংশগ্রহণকারীদের লিঙ্গ ভেদে শিক্ষক ডট কম সাইটের কোর্সে রেজিস্ট্রেশনের শতকরা হার।

সারণী ২: জরিপে অংশগ্রহণকারীদের লিঙ্গ ভেদে শিক্ষক ডট কম সাইটের কোর্সে রেজিস্ট্রেশনের শতকরা হার।

সারণী-২ এ জরিপে অংশগ্রহণকারীদের লিঙ্গ ভেদে শিক্ষক ডট কম সাইটের অন্যান্য কোর্সে রেজিস্ট্রেশনের শতকরা হার দেখানো হয়েছে। এই সারণী থেকে আমরা বেশ কয়েকটি তথ্য পাই।

প্রথমত: সার্বিকভাবে মাত্র ১২% মহিলা শিক্ষার্থী এই জরিপে অংশগ্রহণ করেছে। যদি নমুনাটিকে আমরা শিক্ষক ডট কমের শিক্ষার্থীদের জনগোষ্ঠী (student population) থেকে দৈব চয়িত নমুনা (random sample) হিসেবে চিন্তা করি (মনে রাখা ভালো যে এটি কোন বিজ্ঞান সম্মত জরিপ ছিলনা), তাহলে দেখতে পাই শিক্ষক ডট কমের শিক্ষার্থীদের মধ্যে শতকরা পুরুষ শিক্ষার্থীর সংখ্যা শতকরা মহিলা শিক্ষার্থীর সংখ্যার তুলনায় কয়েকগুন বেশী।

দ্বিতীয়ত: জরিপে অংশগ্রহণকারী শিক্ষার্থীদের প্রায় ৪১% ই নতুন অর্থাৎ এর আগে তারা শিক্ষক ডট কমে অন্য কোন কোর্সে অংশ নেয়নি। আরো দেখতে পাই যে প্রায় ২৫% শিক্ষার্থী পরিসংখ্যান পরিচিতি কোর্সের পাশাপাশি অন্য একটি কোর্সে অংশ নিয়েছে, ১৮% শিক্ষার্থী দুটি কোর্সে অংশ নিয়েছে এবং প্রায় ১৬% শিক্ষার্থী তিন বা ততোধিক কোর্সে অংশ নিয়েছে।

সারণী-২ এর তথ্যকে আমরা চিত্রের মাধ্যমেও প্রকাশ করতে পারি। অনেক সময় চিত্রের মাধ্যেমে প্রকাশ করলে অনেক তথ্য নতুন করে ধরা পড়ে যা সারণী দেখে আমরা অনুধাবন করি না। এছাড়া চিত্র সহজেই বোঝা যায়।

লিঙ্গ ভেদে জরিপে অংশগ্রহণকারীদের শিক্ষক ডট কম-এ কোর্স রেজিস্ট্রেশনের শতকরা বিন্যাস

চিত্র ২: লিঙ্গ ভেদে জরিপে অংশগ্রহণকারীদের শিক্ষক ডট কম-এ কোর্স রেজিস্ট্রেশনের শতকরা বিন্যাস।

উপরের চিত্রটি এক ধরনের লেখস্তম্ভ বা bar chart। এই চিত্রটি কিভাবে তৈরী করা হয়েছে তা ভিডিওতে দেখানো হয়েছে।

আপনার কাছে প্রশ্ন: চিত্র-২ থেকে নতুন কী তথ্য আমরা “দেখতে” পাচ্ছি যা সারনী-২এও ছিল কিন্ত লক্ষ্য করা হয়নি?

এক্সেল-এ সারণী ও লেখচিত্রে তৈরীর পদ্ধতি

এবার আমরা নীচের ভিডিওতে দেখানোর চেষ্টা করবো কিভাবে মাইক্রোসফট এক্সেল-এ এরকম সারণী/চিত্র তৈরী করা যায়। বলে রাখা ভালো যে পরিসংখ্যানবিদগণ উপাত্ত বিশ্লেষণের জন্য এক্সেল ব্যবহার করেন না। তবে কোর্সটি যেহেতু সবার কথা মাথায় রেখে তৈরী করা হয়েছে আর এক্সেল আজকাল প্রায় সব অফিসেই ব্যবহার করা হয়, তাই এক্সেলে কিভাবে সারণী এবং চিত্রে গুলো তৈরী করা যায় তা দেখাচ্ছি।

উল্লেখ্য যে, আমি এক্সেলে দক্ষ নই। তাই ভিডিওতে যা দেখানো হয়েছে সেটিই যে সবচেয়ে এফিসিয়েন্ট পদ্ধতি এমনটা দাবী করছি না। আমি এক্সেল ২০১০ ভার্সন ব্যবহার করেছি। আমার কম্পিউটারে এরচে পুরনো কোন ভার্সন নেই। অতএব সে সম্পর্কিত কোন প্রশ্নের উত্তর দেয়া সম্ভব নাও হতে পারে। তবে চেষ্টা করবো।

ইউটিউবে দেখুন এক্সেলে সারণী তৈরি করা

ভিমিওতে দেখুন পরিসংখ্যান পরিচিতি- লেকচার-৩ from Enayetur Raheem

ব্যবহারিক

এতক্ষণ আমরা যা শিখলাম তা নিজেরা বাড়িতে অনুশীলন করবো এবং নীচের প্রশ্নগুলোর উত্তর দেয়ার চেষ্টা করবো।

প্রশ্ন ১) জরীপে অংশগ্রহণকারীদের কত শতাংশ মনে করে যে দুর্নীতিই অর্থনৈতিক উন্নয়নের প্রধান অন্তরায়? প্রথমে সারণীটি তৈরী করুন এবং তারপর প্রশ্নটির উত্তর দেয়ার চেষ্টা করুন।

প্রশ্ন ২) বাংলাদেশের অর্থনৈতিক উন্নয়নের প্রধান অন্তরায় সম্পর্কে নারী ও পুরুষের মধ্যে ভাবনার বিন্যাস টি সারণী ও পাই চিত্রের মাধ্যমে দেখান।

প্রশ্ন ৩) উপরের দুটি প্রশ্নের উত্তরে শুধুমাত্র পরিসংখ্যান পরিচিতি কোর্সে অংশগ্রহণকারীদের মতামত নিয়ে সারণী ও চিত্র তৈরী করুন।

শেষ কথা

এ পর্বে আমরা শুধু কোয়ালিটেটিভ বা গুনবাচক ভ্যারিয়েবল নিয়ে কাজ করেছি। পরবর্তী পর্বে আমি কোয়ান্টিটেটিভ বা সংখ্যাবাচক ভ্যারিয়েবল নিয়ে আলোচনা করবো। আমাদের উপাত্তে একটি মাত্র সংখ্যাবাচক ভ্যারিয়েবল আছে। সেটি হচ্ছে বয়স। পরবর্তী পর্বে সংখ্যাবাচক ভ্যারিয়েবলের সামারি স্ট্যাটিসটিক বের করার পদ্ধতি, চিত্রের মাধ্যেমে প্রকাশের পদ্ধতি এবং সংখ্যাবাচক উপাত্তের আকার (shape) নিয়ে আলোচনা করার আশা রাখছি।

কোন পরামর্শ থাকলে ইমেইল করতে ভুলবেন না।

সবাইকে সাথে থাকার জন্য ধন্যবাদ।

আগের লেকচার-এর লিংক

ভূমিকা

লেকচার ১ : উপাত্ত সংগ্রহ

 লেকচার ২ – গবেষণা পদ্ধতি ও চলক সম্পর্কে ধারণা

সংশোধনী

“শিক্ষক ডট কমে কতটি কোর্স করেছেন” সেটি অনবধনতাবশত গুনবাচক ভ্যারিয়েবল লেখা হয়েছিল। এটি আসলে সংখ্যাবাচক ভ্যারিয়েবল। নীচে মন্তব্যের প্রক্ষিতে আপডেট করা হলো। — জানুয়ারি ২২, ২০১৩

Comments

comments

About the author

এনায়েতুর রহীম

পরিসংখ্যান নিয়ে আছি প্রায় দুই দশক -- এখনো শিখছি--পড়ে এবং পড়ানোর মাধ্যমে। ঢাকা বিশ্ববিদ্যালয় থেকে ফলিত পরিসংখ্যানে ব্যাচেলরস, মাস্টার্স। গবেষণা মূলত গাণিতিক পরিসংখ্যান নিয়ে। বিশেষভাবে কাজ করি রিগ্রেশন মডেলে Shrinkage and Absolute Penalty Estimation নিয়ে। আরো কাজ করি পরিসংখ্যান বিষয়ক সফটওয়্যার, মন্টি কারলো, রিস্যাম্পলিং, জনস্বাস্থ্য ও এপিডেমিওলজি, এবং পরিবেশ বিষয়ক পরিসংখ্যানে। কর্মজীবন শুরু ঢাকা বিশ্ববিদ্যালয়ে শিক্ষকতার মাধ্যমে। বর্তমানে ইউনিভার্সিটি অব নর্দার্ন কলোরাডো তে ফলিত পরিসংখ্যানের সহকারী অধ্যাপক হিসেবে কর্মরত। ব্যক্তিগত সাইট

Leave a Reply