در رابطه فوق Y نشان دهنده متغیر وابسته، X متغیرهای توضیحی مشاهده شده و Z نشان دهنده متغیرهای توضیحی غیر قابل مشاهده اثر گذار بر متغیر وابسته برای هر مقطع بوده که برای توضیح بهتر، این دسته از متغیرها از مقادیر اجزا خطا جدا شدهاست. نماد i نشان دهنده مقطع ها یا واحد های مشاهده شده، t نشان دهنده دوره زمانی و j و pنشان دهنده تفاوت بین متغیرهای مشاهده نشده و مشاهده شده در مدل است. عبارت نشان دهنده خطای برآورد داده های ترکیبی است که تمامی شرایط مربوط به جملات خطا تحت فرضیات گوس – مارکو را دارا است.
۳-۱۲- تحلیل رگرسیون
رگرسیون در لغت به معنای «بازگشت به مراحل قبلی در یک مسیر تحول و توسعه» است. تحلیل رگرسیون در واقع بدنه اصلی مطالعات اقتصادسنجی را تشکیل میدهد و به طور کلی درباره مدلهای رگرسیون و نحوه برآورد آن ها بحث می کند.
برای آشنایی با مفهوم رگرسیون، فرض کنید یک متغیر مثل Y را در طول زمان یا در بین واحدهای مختلف مشاهده کرده و داده های مربوط به آن را به دست آورده ایم. میخواهیم چگونگی تغییرات آن را تفسیر کنیم. برای این منظور باید متغیر یا متغیرهایی را در نظر بگیریم که بتوانند این تغییرات را توضیح دهند. فرض کنید:
این مدل، یک مدل ریاضی است چرا که فقط رابطه ریاضی بین متغیر وابسته (Y) و متغیرهای مستقل (xiها) را منعکس کردهاست. اگر تابع f نسبت به متغیرهای x1 تا xk خطی باشد یعنی به فرم:
این مدل، یک مدل ریاضی خطی نامیده میشود. اینکه چه متغیرهایی باید به عنوان متغیرهای توضیح دهنده استفاده شوند میتواند به تئوریهای اقتصادی یا برداشت شخصی مدل ساز بستگی داشته باشد. شکل تابع نیز تابع نظر مدلساز است و او میتواند شکل های تابعی متفاوتی را امتحان کند که بیشترین سازگاری را با داده های موجود داشته باشد. اما باید توجه داشت که حتی اگر متغیرهای توضیح دهنده به درستی انتخاب شده باشند و فرم تابعی نیز درست تصریح شده باشد، باز هم مدل ساخته شده یک رابطه همواره درست نخواهد بود. دلایل این امر را میتوان چنین برشمرد:
علاوه بر متغیرهای توضیح دهنده وارد شده در مدل، عوامل دیگری نیز وجود دارند بیان کمی آن ها معمولاً بسیار دشوار است و در نتیجه وارد کردن آن ها در مدل مقدور نیست. به عنوان مثال اگر قصد مدل کردن مصرف یک کشور را داشته باشیم، چگونگی انتظارات مصرف کننده نسبت به تغییر در پارامترهای مختلف اقتصادی و درجه عدم اطمینان نسبت به تغییر در پارامترهای مختلف اقتصادی قابل مشاهده نیستند. ثانیاً اقتصاد با رفتار انسانها سر و کار دارد و می دانیم که در رفتار انسان همواره عناصر تصادفی غیرقابل پیشبینی وجود دارد که اساسا نمیتوان آن ها را در مدلهای ریاضی گنجاند. همچنین دلایل دیگری مانند خطا در اندازه گیری متغیرهای وابسته و مستقل میتوان ذکر کرد.
پس باید پذیرفت که مدلهای ریاضی برای توضیح پدیدههای اقتصادی دقیق نیستند و خطا دارند. به این خطا اصطلاحا “جمله اخلال” میگویند زیرا تعادل ریاضی مدل را مختل می کند. به همین دلیل یک جمله خطا (یا ترم تصادفی) به مدل اضافه میکنیم که جانشینی برای اثر همه عوامل نادیده گرفته شده در مدل است. بنابرین تفاوت کلی مدلهای ریاضی و مدلهای رگرسیون در جمله اخلال است. هر گاه به مدلهای ریاضی یک جمله اخلال – که یقینا تصادفی است – اضافه کنیم به یک مدل رگرسیون تبدیل خواهد شد.
به متغیر Y که در سمت چپ معادله قرار دارد، متغیر وابسته و به xiها متغیرهای توضیح دهنده یا رگرسورها گفته میشود. اصطلاحات متغیر برونزا و متغیر درونزا نیز به ترتیب برای xiها و Y به کار میرود زیرا فرض بر این است که مقادیر xiها خارج از مدل مفروض تعیین شده و در نتیجه برونزا هستند در حالی که مقادیر Y در داخل مدل و بر اساس قانونمندی تعیین میشود و به همین دلیل درونزا خواهد بود.
۳-۱۳- فروض کلاسیک
با بررسی مدلهای رگرسیون به سهولت مشاهده میشود که هر گونه پیشرفت در تحلیلهای رگرسیونی متوقف به شناخت بیشتر از جمله اخلال مدل است. در واقع در یک مدل رگرسیون، جمله اخلال با اینکه نقش مهمی ایفا میکند اما بنا به تعریف ناشناخته است. هر گاه کوشش کنیم اجزایی از جمله اخلال را بشناسیم و آن ها را اندازه گیری کنیم این اجزای شناخته شده در قسمت معین مدل قرار می گیرد و مجموعه عوامل مجهولی که باقی میمانند جمله اخلال را تشکیل میدهند. بنابرین جمله اخلال هیچگاه قابل مشاهده و اندازه گیری نیست. در نتیجه تنها راه خروج از این تنگنای نظری این است که یک سری فرضهای منطقی در مورد جمله اخلال مطرح کنیم تا بر آن اساس بتوان به تحلیلهای رگرسیونی ادامه داد. این فرض ها با یک فرض در مورد متغیرهای برونزا با عنوان فرض های کلاسیک مدلهای رگرسیون مطرح میشود.
مهمترین نکته در مورد تصادفی بودن آن است. با توجه به تعریفی که از ارائه شد، بدیهی است که این فرض قابل قبول است و خلاف آن را نمیتوان تصور نمود. یک متغیر تصادفی است و مثل همه متغیرهای تصادفی دارای یک تابع توزیع احتمال و در نتیجه میانگین و واریانس (و بقیه گشتاورها) است. سوال مهمی که میتوان مطرح کرد این است که خصوصیات آماری و شکل تابع توزیع احتمال متغیر تصادفی چیست؟ پاسخ به این سوال فروض کلاسیک نامیده میشود. فروض کلاسیک عبارتند از:
اولین فرض این است که میانگین یا امید ریاضی جمله اخلال صفر است.
این فرض در واقع به این معنی است که به ازای هر مقدار معین از متغیرهای توضیح دهنده، میانگین تمام مقادیر ممکن برابر صفر است. ظهور مقادیر مختلف به اعتبار فرض آزمایشهای فرضی تکراری به ازای مقادیر معین و ثابت متغیرهای توضیح دهنده است. مفهوم کلی این فرض این است که مدل خطای سیستماتیک ندارد.
دومین فرض ثابت بودن واریانس جمله اخلال به ازای مقادیر مختلف متغیرهای مستقل است.
هرگاه واریانس جمله اخلال ثابت باشد، میگوییم مدل واریانس همسان و در غیر این صورت واریانس ناهمسان است.
سومین فرض این است که و به ازای تمامی مقادیر از یکدیگر مستقلاند. یعنی کوواریانس آن ها صفر است.
به عبارت دیگر هرگاه دو مقدار متفاوت برای متغیرهای مستقل را در نظر بگیریم، فرض بر این است که جمله های اخلال متناظر با آن ها از یکدیگر مستقلاند. در چنین حالتی میگوییم که جمله های اخلال خود همبستگی ندارند.
چهارمین فرض این است که تابع توزیع جمله اخلال را نرمال بدانیم. بنابرین با توجه به فرضهای اول و دوم و سوم میتوان گفت که دارای توزیع مستقل نرمال با میانگین صفر و واریانس ثابت است.