بیش از ۱۰۰ سال پیش در سال ۱۸۷۷ فرانسیس گالتون[۳۰] در مقالهای که در همین زمینه منتشر کرد اظهار داشت که متوسط قد پسران دارای پدران قد بلند ، کمتر از قد پدرانشان میباشد. به نحو مشابه متوسط قد پسران دارای پدران کوتاه قد نیز بیشتر از قد پدرانشان گزارش شده است. به این ترتیب گالتون پدیده بازگشت به طرف میانگین را در دادههایش مورد تأکید قرار داد . برای گالتون رگرسیون مفهومی زیست شناختی داشت اما کارهای او توسط کارل پیرسون[۳۱] برای مفاهیم آماری توسعه داده شده . گرچه گالتون برای تأکید بر پدیده “بازگشت به سمت مقدار متوسط” از تحلیل رگرسیون استفاده کرد، اما به هر حال امروزه واژه تحلیل رگرسیون جهت اشاره به مطالعات مربوط به روابط بین متغیرها به کار برده می شود.
۳-۹-۲ مفهوم همبستگی
تحقیق همبستگی عبارت است از تشخیص وجود رابطه احتمالی بین دو یا چند متغیر کمی میباشد، بدون اینکه رابطه علت و معلولی بین متغیرها را مشخص سازد.
تحقیقات همبستگی را میتوان بر حسب هدف به سه دسته شامل “همبستگی دو متغیری"، رگرسیون چندگانه” و “تحلیل ماتریس همبستگی یا کواریانس” تقسیم کرد (سرمد و همکاران، ۱۳۷۸)
۳-۹-۲-۱ همبستگی دو متغیری:
در مطالعه همبستگی دو متغیری، هدف بررسی رابطه دو به دو متغیرهای موجود در تحقیق است. برای این منظور بر حسب مقیاسهای اندازه گیری متغیرها، شاخص های مناسبی اختیار می شود. از آنجا که در اکثر تحقیقات همبستگی دو متغیری از مقیاس فاصلهای با پیش فرض توزیع نرمال دو متغیری برای اندازه گیری متغیرها استفاده می شود، لذا ضریب همبستگی محاسبه شده در این گونه تحقیقات “ضریب همبستگی گشتاوری پیرسون” است.
۳-۹-۲-۲ رگرسیون چند گانه:
چنانچه هدف پیش بینی یک یا چند متغیر ملاک از چند متغیر پیشبین باشد، از مدل “رگرسیون چندگانه” استفاده می شود. به عبارتی این روش برای تعیین همبستگی بین متغیر ملاک و ترکیبی از دو یا چند متغیر پیش بین بهکار میرود. در این تحلیل، سه روش اساسی شامل : “روش همزمان"، “روش گام به گام” و “روش سلسله مراتبی” مورد توجه میباشد.
۳-۹-۳ آزمون فرضیه برای ضرایب رگرسیون
اگر فرض εi ~ N (0, σ۲) را داشته باشیم آنگاه میتوانیم فرض صفر بودن ضرایب رگرسیونی را با کمک آزمون t انجام دهیم به عبارتی داریم:
H1: βi≠۰ , H0: βi=0
با بهره گرفتن از آماره t و مقدار tn-1,α/۲، میتوانیم فرضیه H0 را رد کنیم یا بپذیریم.
بدین ترتیب که اگر tn-1,α/۲ > |t0| باشد فرض H0 را رد میکنیم و اگر tn-1,α/۲ < |t0| فرض H0 را قبول میکنیم. رد فرض صفر به این معنی است که ضریب متغیر i ام صفر نیست و به عبارتی متغیر i ام به طور معنیدار و صحیح در مدل وارد شده است. ولی اگر فرض صفر را بپذیریم به این است که نیازی به حضور متغیر i ام در مدل نیست و میتواند از مدل حذف شود.
۳-۹-۴ آزمون معنیدار بودن معادله رگرسیون
برای برازش کلی معادله رگرسیون از آزمون F استفاده میشود و فرض صفر و مخالف آن به صورت زیر میباشد:
H0 = β۱= β۲=…= βk= 0
H1= دست کم یکی از β ها صفر نیست
چنانچه در سطح اطمینان ۹۵% آماره محاسبه از معادله رگرسیون کوچکتر از جدول باشد فرض H0 را نمیتوان رد کرد و در غیر این صورت H0 رد میشود و معادله رگرسیون معنیدار خواهد بود. بنابراین برای معنیداری معادله از جدول ANOVA استفاده میشود و در صورتی که P-value آن کمتر از ۰۵/۰ باشد، معنیداری آن تایید میشود.
۳-۹-۵ آزمون نرمال بودن متغیر وابسته
برای بررسی معنیداری متغیر وابسته از آزمون کولموگوروف- اسمیرنوف[۳۲] (KS) استفاده میشود. فرض صفر و مخالف آن به صورت زیر است:
H0= توزیع متغیر وابسته نرمال است
H1= توزیع متغیر وابسته نرمال نیست
اگر P-value بزرگتر از ۰۵/۰ باشد بنابراین نمیتوان فرض H0 را رد کرد بنابراین ادعای نرمال بودن توزیع محافظه کاری سود پذیرفته میشود.
با انجام آزمون نرمال بودن متغیر وابسته اولین شرط رگرسیون خطی رعایت شده و فرض نرمال بودن متغیر وابسته را برای تمامی آزمونهای فرضیات استفاده میکنیم.
۳-۹-۶ آزمون هم خطی متغیرهای مستقل
همخطی وضعیتی است که نشان میدهد یک متغیر مستقل تابعی خطی از سایر متغیرهای مستقل است. اگر همخطی در یک معادله رگرسیون بالا باشد، بدین معنی است که بین متغیرهای مستقل همبستگی بالایی وجود دارد و ممکن است با وجود بالا بودن R2، مدل دارای اعتبار بالایی نباشد. به عبارت دیگر با وجود آن که مدل خوب به نظر میرسد ولی دارای متغیرهای مستقل معنیداری نمیباشد.
برای آزمون همخطی در رگرسیون از مقدار تولرانس یا تورش واریانس استفاده میشود که به این معنا است که اطلاعات هر متغیر پیشبین وارد شده به مدل تا چه حد توسط سایر متغیرهای مستقل قابل برآورد بوده است. برای این منظور باید به شاخص وضعیت[۳۳] استناد نمود که تا ۳۰ قابل تحمل است و بیانگر عدم مشکل جدی در استفاده از رگرسیون است ولیکن مقادیر کمتر آن به معنای اعتبار بیشتر ضریب تعیین است.
۳-۹-۷ آزمون استقلال خطاها
یکی از مفروضاتی که در رگرسیون مدنظر قرار میگیرد، استقلال خطاها (تفاوت بین مقادیر واقعی و مقادیر پیشبینی شده توسط معادله رگرسیون) از یکدیگر است. در صورتی که فرضیه استقلال خطاها رد شود و خطاها با یکدیگر همبستگی داشته باشند امکان استفاده از رگرسیون وجود ندارد. به منظور بررسی استقلال خطاها از یکدیگر از آزمون دوربین-واتسون[۳۴] استفاده میشود. چنانچه این آماره در بازه ۵/۱ یا ۵/۲ قرار گیرد H0 آزمون (عدم همبستگی بین خطاها) پذیرفته میشود در غیر این صورت H0 رد میشود (همبستگی بین خطاها وجود دارد).
۳-۹-۸ آزمون نرمال بودن خطاها
یکی دیگر از مفروضات در نظر گرفته شده در رگرسیون آن است که خطاها دارای توزیع نرمال با میانگین صفر میباشند. بدیهی است که در صورت عدم برقراری این پیش گزیده نمیتوان از رگرسیون استفاده کرد بدین منظور باید مقادیر استاندارد خطاها محاسبه شود و نمودار توزیع دادهها و نمودار نرمال آن ها رسم شود و سپس مقایسهای بین دو نمودار صورت گیرد.
۳-۱۰ آزمون همبستگی بین خطاها با دوربین واتسون
یکی از مفروضاتی که در رگرسیون مد نظر قرار می گیرد استقلال خطاها (تفاوت بین مقادیر واقعی و مقادیر پیش بینی شده توسط معادله رگرسیون) از یکدیگر است. در صورتی که فرضیه استقلال خطاها رد شود و خطاها با یکدیگر همبستگی داشته باشند، امکان استفاده از رگرسیون وجود ندارد. به منظور بررسی استقلال خطاها از یکدیگر از آزمون دوربین واتسون استفاده می شود که آماره آن به کمک رابطه زیر محاسبه می شود در این رابطه et میزان اختلال یا خطا در دوره زمانی t و et-1 میزان ختلال یا خطا در دوره زمانی قبل را نشان میدهد (مومنی و قیومی، ۱۳۸۹):
اگر همبستگی بین خطاها را با نشان دهیم در این صورت آماره دوربین واتسون به کمک رابطه زیر محاسبه میشود.
۳-۱۱ انواع دادهها:
انواع دادههایی که عموماً برای تحلیلهای تجربی به کار برده میشوند، در سه گروه مورد بحث و بررسی قرار میگیرند:
داده های سری زمانی
داده های مقطعی
داده های تلفیقی سری زمانی و مقطعی
در داده های سری زمانی مقادیر یک یا چند متغیر را طی یک دوره زمانی مشاهده میکنیم. در داده های مقطعی، مقادیر یک یا چند متغیر برای چند واحد یا مورد نمونه ای در یک زمان یکسان جمعآوری می شود.
داده های تابلویی ترکیبی از داده های مقطعی و سری زمانی میباشد، یعنی اطلاعات مربوط به داده های مقطعی در طول زمان مشاهده می شود. بدینصورت که چنین دادههایی دارای دو بعد می باشند که یک بعد آن مربوط به واحدهای مختلف در هر مقطع زمانی خاص است و بعد دیگر آن مربوط به زمان میباشد. در مجموع، دادههای پانلی دارای مزایای فراوانی نسبت به داده های مقطعی یا سری زمانی هستند که برخی از مهمترین آنها عبارتند از:
۱- داده های مقطعی و سری زمانی صرف، ناهمسانیهای فردی را لحاظ نمیکنند، لذا ممکن است که تخمین تورشداری به دست دهند، در حالی که در روش پانل میتوان با لحاظ کردن متغیرهای مخصوص انفرادی این ناهمسانیها را لحاظ کرد.
۲- داده های تابلویی دارای اطلاعات بیشتر، تغییرپذیری بیشتر، همخطی کمتر، درجه آزادی بالاتر و کارایی بالاتر نسبت به سری زمانی و داده های مقطعی میباشند. به خصوص اینکه یکی از روش های کاهش همخطی، ترکیب داده های مقطعی و زمانی به صورت داده های تابلویی میباشد.
۳- با مجموعه داده های تابلویی، میتوان اثراتی را شناسائی و اندازه گیری کرد که در داده های مقطعی محض یا سری زمانی خالص قابل شناسائی نیست. گاهی استدلال می شود داده های مقطعی، رفتارهای بلندمدت را نشانمیدهند، در حالی که در داده های سری زمانی براثرات کوتاهمدت تأکید می شود. با ترکیب این دو خصوصیت در داده های تابلویی، که خصوصیت متمایز پانل دیتاست، ساختار عمومیتر و پویاتری را میتوان تصریح و برآورد کرد(اشرفزاده و مهرگان، ۱۳۸۷).
۴- داده های تابلویی که بر حسب بنگاهها، خانوارها و افراد جمع آوری میشوند، ممکن است دقیقتر از داده های مشابه اندازه گیری شده در سطح کلان باشند. بنابراین، تورشی که ممکن است در داده های کلان حاصل شود، در داده های تابلویی حداقل میگردد (بالتاجی[۳۵]، ۲۰۰۵).داده های پانلی از طریق فراهم کردن تعداد داده های زیاد، تورش را پائین میآورد (گجراتی[۳۶]، ۲۰۰۴).
۵- مطالعه مشاهدات به صورت داده های پانلی، وضعیت بهتری برای مطالعه و بررسی پویایی تغییرات نسبت به سری زمانی و مقطعی داراست.
۳-۱۱-۱ انواع مدل های به کار رفته در داده های ترکیبی
یکی از مهمترین مشکلات بررسی های غیر تجربی در تورش ناشی از متغیرهـای حـذف شـده یـا تخمـین زده نـشده در برآوردها است. به این دلیل تحلیل هایی که براساس این قبیل مشاهدات صورت می گیرد، اغلب بـا واقعیـات منطبـق نیـست. براین اساس، با بهره گرفتن از مدل داده های ترکیبی، می توان به تخمین های کارا دست یافت. شکل کلی مدل داده های ترکیبی که به مدل اجزاء خطا معروف است، به صورت زیر می باشد:
در رابطه فوق Y نشان دهنده متغیر وابسته، X متغیر های توضیحی مشاهده شده و Z نشان دهنده متغیرهای توضـیحی غیر قابل مشاهده اثرگذار بر متغیر وابسته برای هر مقطع بوده که برای توضیح بهتر، این دسته از متغیرها از مقادیر اجزاء خطـا جدا شده است. نماد i نشان دهنده مقطع ها یا واحد های مشاهده شده، t نشان دهنده دوره زمانی و j و p نشان دهنده تفاوت بین متغیر های مشاهده نشده و مشاهده شده در مدل است . عبارت نشان دهنده خطای برآورد داده های ترکیبی است که تمامی شرایط مربوط به جملات خطا تحت فرضیات گوس- مارکو را داراست.
۳-۱۱-۲ مدل اثر ثابت
تحقیقات انجام شده درباره : تاثیر ارائه مجدد صورتهای مالی بر سیاستهای تامین مالی و پاسخگویی حسابرس در ...