כיצד למדוד ולהגיע למסקנות מדעיות בנוגע לאימפקט של עמותה, פרויקט, או מיזם חברתי?
זאת שאלה קשה, אך המדריך הזה נוצר כדי ללוות אתכם צעד בצעד במענה על השאלה הזאת, מבלי לדרוש אף ידע מוקדם או רקע מחקרי.
המדריך נכתב ע"י עמותת אלטרואיזם אפקטיבי ישראל, ומיועד למובילי עמותות ומיזמים חברתיים – בעמוד הזה תוכלו למצוא מידע נוסף על העשייה שלנו בתחום הזה.
תוכן עניינים
- הקדמה – מה זה הערכת אימפקט ולמה זה חשוב?
- תקציר שלבים א' עד ז'
- שלב א': הגדרת מטרות התוכנית
- שלב ב': הגדרת מדדים אובייקטיבים
- שלב ג': בחירת המדדים למחקר הנוכחי ובניית תוכנית מחקר
- שלב ד': איסוף הנתונים
- שלב ה': ניתוח ההשפעה של התוכנית
- שלב ו': ניתוח עלויות
- שלב ז': ביצוע ההערכה הסופית וכתיבת דוח הערכת אימפקט
- טיפים והרחבות אפשריות
- במי אפשר להיעזר?
הקדמה – מה זה הערכת אימפקט ולמה זה חשוב?
המטרה של כל עשייה חברתית – בין אם מדובר בעשייה למען אנשים, בעלי חיים או הסביבה – היא לשפר באופן כלשהו את העולם. וכמו עם כל מטרה בחיים, גם בעשייה חברתית חשוב לוודא שאנחנו באמת משיגים את המטרות שלנו.
כיצד, אם כך, ניתן לוודא שהעשייה החברתית שלנו משיגה את מטרותיה, ושאנחנו באמת משפרים את העולם באופן שהיינו רוצים? לשם כך נדרשת הערכת אימפקט, שלעתים נקראת גם מחקר עלות-תועלת (cost-effectiveness analysis).
הערכת אימפקט איכותית תאפשר לנו:
להגדיר מדדים שמשקפים את המטרות שלנו
לבנות תוכנית מחקר סדורה
למדוד את ההשפעה של התוכנית בשטח באמצעות המדדים ותוכנית המחקר שהגדרנו
לנתח באופן מושכל את תוצאות המחקר
למדוד בצורה אמינה את העלויות של התוכנית
והכי חשוב: להבין מה גודל ההשפעה החיובית שאנחנו מייצרים
אימפקט = שורה תחתונה
ישנן גישות שונות להערכת התערבות (כלומר עשייה חברתית כלשהי, בין אם היא נעשית לבד או כחלק מארגון או צוות המקדם אג'נדה חברתית).
ישנן גישות של הערכה עשויות להסתכל על גורמים עקיפים המעידים על ההתנהלות הכללית של הארגון, כגון שקיפות, מנהל תקין, ניהול מקצועי, יישום best practices, או גודל התקורות (כלומר אחוז הכסף שלא מגיע ישירות לנזקקים או המטרה שלשמה התוכנית פועלת). בעוד הגישות הללו מועילות ויכולות לתת לנו מידע מועיל על ההתנהלות הכללית של ארגון והעשייה שלו, הן לא מהוות תחליף להסתכלות ישירה על ההשפעה של העשייה החברתית. צריך לזכור שהמדדים העקיפים הם, ובכן, עקיפים, והם לא בהכרח מייצגים את השורה התחתונה: אילו שינויים השגנו בשטח? באיזו מידה הצלחנו לשפר את חיי המוטבים של ההתערבות? האם הצלחנו למנוע סבל של בעלי חיים? האם מנענו פליטה של גזי חממה? האם בזכותנו יותר מובטלים הצליחו למצוא עבודה? האם עזרנו לתלמידים לשפר את הציונים שלהם? אלו השאלות שבסופו של דבר באמת מעניינות אותנו. אם בשורה התחתונה הצלחנו לשפר את העולם, אז במובן כלשהו זה לא באמת משנה כיצד עשינו את זה ובאיזו מידה היינו ההתנהלות שלנו הייתה תקינה.
למעשה, הסתכלות מוגזמת על מדדים עקיפים מבלי להסתכל על השורה התחתונה (השינוי שאנחנו מייצרים בשטח) יכולה להיות אפילו מזיקה כאשר היא נלקחת לקיצון. ניסיון מוגזם לצמצם תקורות, למשל, עלול לגרום לנו לקצץ יתר על המידה במשכורות של עובדים ומנהלים בארגון, עד כדי הפיכת המשרות ללא אטרקטיביות לעובדים איכותיים, מה שבסופו של דבר יגרום נזק ליכולת שלנו להשיג את המטרות שלנו באופן אפקטיבי, וייפגע באימפקט שאנחנו מייצרים.
מדידה של תוצאות בשטח היא לרוב קשה יותר ודורשת תכנון מקיף, מחקר מעמיק והרבה חשיבה. עם זאת אנחנו מאמינים שהתוצאות לחלוטין שוות את ההשקעה. לאורך המדריך ננסה לתת מידע מקיף והנחיות מפורטות כיצד לגשת למשימה הזאת.
אפקטיביות = אימפקט פר השקעה של יחידת משאבים
איזו תוכנית אפקטיבית יותר? תוכנית א' שמונעת כעשרים מקרים של סרטן העור בשנה, או תוכנית ב' שמונעת רק כעשרה מקרים בשנה? התשובה היא שזה תלוי מהן העלויות של שתי התוכניות! אם לשתי התוכניות עלות זהה, אז ברור שתוכנית א' אפקטיבית יותר (וייתכן שנרצה להרחיב אותה על חשבון תוכנית ב', אם הדבר אפשרי).
אבל אם תוכנית א' יקרה פי 3 אז דווקא תוכנית ב' היא זו שאפקטיבית יותר (ובמקרה הזה היינו שוקלים להרחיב דווקא אותה). "אפקטיביות" נמדדת באימפקט פר יחידת משאבים (למשל 0.000027 מקרים של סרטן העור שנמנעים על כל שקל בתקציב הפרויקט, כלומר עלות של 37,000 ש"ח למניעה של כל מקרה סרטן).
לכן, לצרכי המדריך הזה, "עלות-אפקטיביות" עונה על השאלה: כמה אימפקט עושה כל שקל שמושקע בתוכנית?
זוהי עובדה מתמטית שאימפקט פר יחידת משאבים הוא המדד שאנחנו רוצים לשפר אם אנחנו רוצים להביא למקסימום את סך האימפקט שלנו. להבחנה הזאת יש משמעות מעשית חשובה: כשמבצעים הערכת אפקטיביות ומנסים לשפר את האימפקט שלנו, חשוב לשים לב לא רק לאימפקט שאנחנו משיגים אלא גם לעלויות הכרוכות בהשגת אותו אימפקט. אמנם מדידת עלויות היא לרוב קלה יותר ממדידת אימפקט, אך חשוב לא להזניח אותה (נקדיש לכך פרק שלם בהמשך המדריך). כמו כן, אם ברצוננו להיות יותר אפקטיביים בעשייה החברתית שלנו, צמצום עלויות היא אסטרטגיה לא פחות לגיטימית (ולעתים מבטיחה יותר) מניסיון להגדיל את האימפקט.
למה (ולמי) הערכות אימפקט שימושיות?
הערכת אימפקט איכותית היא קריטית ליכולת של העוסקים בעשייה חברתית להשיג את המטרות שלהם:
האם ההתערבות שאנחנו מיישמים באמת משיגה את מטרתה במידה שהיינו מצפים? אם מסתבר שהתשובה שלילית, זה קריטי שנדע זאת וננקוט בצעדים מתאימים, למשל שינוי (מתון או רדיקלי) של התוכנית, או אפילו החלטה להפסיק אותה ולהסיט את המשאבים שלנו לאפיקים יותר פרודוקטיביים.
האם תוכניות מסוימות אפקטיביות יותר מאחרות? אם נמדוד את האפקטיביות של תוכניות שונות שאנחנו מקדמים, לעתים קרובות נגלה שאכן תוכניות מסוימות אפקטיביות יותר מאחרות. אם זה אכן המצב, ואם ניתן להגדיל את התוכניות היותר אפקטיביות על חשבון הפחות אפקטיביות, כנראה שנרצה לעשות זאת (על מנת להיות מסוגלים להגדיל את ההשפעה החיובית הכוללת שלנו). כמו כן נוכל לבחור בצורה מושכלת האם מוטב לנו לפתוח תוכנית חדשה או להרחיב תוכנית קיימת.
האם ישנם צווארי בקבוק בתוכנית שלא היינו מודעים אליהם? כאשר לוקחים ברצינות את השאלה של אימפקט ומחליטים למדוד את ההשפעה שלנו כמו שצריך, לעתים קרובות מתגלה מידע מאוד מועיל בדרך. יכול מאוד להיות שנגלה שהתוכנית פחות אפקטיבית ממה שחשבנו, אבל שניתן לתקן את זה. אם למשל אנחנו עובדים בעמותה שמחלקת בגדי חורף למחוסרי בית, יכול להיות שנגלה שבעיר המרכזית בה אנחנו פועלים למחוסרי הבית דווקא יש מספיק ביגוד חם, אבל עיר אחרת מוזנחת כרגע, מה שיאפשר לנו לשנות את מוקד הפעילות ובכך לשפר באופן משמעותי את האימפקט שלנו.
האם ישנן נקודות אי-ודאות נוספות שכדאי לנו להמשיך לחקור? כאשר עושים מאמצים כנים לענות על שאלות, אנחנו בדרך כלל נסיים את התהליך עם אפילו יותר שאלות, וזה בסך הכל דבר טוב ורצוי; מחקר לרוב מוליד עוד מחקר. כאשר נשב לחקור את האימפקט של ההתערבות החברתית שלנו, בסיכוי גבוה נתקל בסוגיות ותהיות שכלל לא היינו מודעים אליהן, שיאפשרו לנו לשפר את התוכנית אפילו יותר.
בנוסף, מי שלוקחים ברצינות את השאלה של אימפקט משדרים רצינות ומקצועיות כלפי חוץ. אם תהיו שקופים כלפי התורמים שלכם ותנגישו להם מידע מפורט ומגובה מחקרית על ההשפעה הצפויה של התרומה שלהם, סביר שיותר תורמים ירגישו יותר בנוח לתמוך בעשייה שלכם.
בנוסף לחשיבות של הערכת אימפקט עבור מי שמבצע את ההתערבות, יש לה גם חשיבות מכרעת עבור המעגל הפילנתרופי הרחב יותר:
כאשר כספי ציבור ופילנתרופיה מופנים להתערבויות בעלות אפקטיביות מוכחת, ניתן להשיג הרבה יותר עם המשאבים המוגבלים שלנו. אנחנו מאוד מעודדים תורמים מכל סוג לתרום בצורה אפקטיבית (כלומר על בסיס מחקרי אימפקט אמינים).
כאשר תורמים בוחרים לתרום לעמותות אפקטיביות, זה מהווה תמריץ לעוד עמותות לבצע מחקרים מהסוג הזה ולנהוג בשקיפות כלפי התורמים שלהם. וכאשר עמותות נוספות מבצעות את המחקרים, זה מאפשר לתורמים להעדיף עמותות כאלה. באופן רחב מדובר במעגל משוב חיובי שיכול מאוד לשפר את כל מעגל העשייה החברתית, ולהאיץ את תהליך השקיפות והמדידה של הפילנתרופיה בארץ. עשייה חברתית מבוססת ראיות היא ללא ספק העתיד, ומוטב לעלות על הגל מוקדם מאשר מאוחר.
ביצוע מחקר משמעו הבעת נכונות לגלות את האמת
אנחנו שומעים פעילים חברתיים רבים משמיעים הסתייגויות מהערכת אימפקט בסגנון "אנחנו עוסקים בעשייה חברתית כבר הרבה מאוד שנים ואנחנו מכירים לעומק את התחום בו אנחנו פועלים. ברור לנו שמה שאנחנו עושים טוב ויעיל, וביצוע מחקר הערכת אימפקט רק יגזול מאיתנו משאבים מיותרים על מנת לגלות את המובן מאליו". מהניסיון העשיר של תנועת אלטרואיזם אפקטיבי, מדובר בסנטימנט שגוי מאוד. לעיתים מאוד נדירות קורה שמחקר לא משיג דבר מלבד לאשש את המובן מאליו. אם נחקור את ההשפעות של העשייה שלנו ברצינות, כמעט תמיד נגלה עליה דברים שלא ידענו (או שיתעוררו שאלות מעניינות נוספות). התוצאות של מדידה לעתים קרובות מפתיעות ומאוד שונות ממה שהיינו מצפים. כמובן שלמומחיות והבנה של מה קורה בשטח יש ערך בביצוע מחקר אמפירי, ואנחנו לא מעודדים פעילים חברתיים להתעלם מהניסיון וההבנה שלהם. עם זאת, חשוב להיות קשובים לממצאים שעולים מהנתונים.
סקלביליות ותועלת שולית
"תועלת שולית" הוא מונח כלכלי שמצביע על כך שהערך שנקבל מהשקעה נוספת בפרויקט כלשהו אינו בהכרח זהה לערך שקיבלנו מהשקעות בגודל דומה עד כה – עקרונית הוא יכול להיות גדול יותר (למשל כתוצאה מכך שכבר אין צורך בהוצאות קבועות נוספות כגון בניית אתר אינטרנט), אך על פי רוב הערך שנקבל יקטן ככל שנשקיע יותר משאבים בפרויקט, מה שיוביל לתופעה הידועה של "תועלת שולית פוחתת".
הסיבה העיקרית לתועלת שולית פוחתת היא מגבלת סקלביליות (scalability) של התוכנית, כלומר של היכולת להרחיב אותה עוד ועוד ולשמור על אותו אפקט. סיבה אפשרית אחת למגבלת גודל של התוכנית יכולה להיות שאנחנו מנסים לפתור בעיה שהיא מראש בגודל מוגבל. אם למשל אנחנו מנסים לסייע לחולי סכרת, ישנו מספר סופי של חולים בארץ ויכול להיות שבשלב כלשהו כבר עזרנו לכל מי שהיינו יכולים (במידה שהיינו יכולים) ושניסיון להמשיך לעזור להם עם עוד משאבים בהכרח יוביל אותנו לנקוט בהתערבויות פחות אפקטיביות, או לטפל במקרים פחות קשים שפחות צריכים את עזרתנו. סיבה אפשרית אחרת היא שאנחנו מוגבלים במשאבים אחרים (שאינם כספיים) הנדרשים לטובת התוכנית שלנו, כגון עובדים ומתנדבים איכותיים או תמיכה ממשלתית. כך ייתכן שהרחבת התוכנית מעבר לגודל מסוים תאלץ אותנו להכניס לשורותינו מתנדבים עם מחוייבות נמוכה יותר, מה ששוב יוביל לקטינת התועלת השולית.
מהסיבות הללו יש יתרון לנסות למדוד את האימפקט השולי של ההתערבות שלנו כאשר הדבר אפשרי, להבדיל מהאימפקט הממוצע כפי שהוא נמדד בעבר. אידיאלית היינו רוצים לענות על השאלה כמה טוב נצליח לעשות עם אלף השקלים הבאים שיתרמו לתוכנית (או כל סכום אחר). על מנת לבצע הערכה כזאת, יש צורך להתייחס לסקלביליות של התוכנית וכמה מקום יש בה לתרומות נוספות (room for more funding). למרות החשיבות של תועלת שולית, לאורך רוב המדריך נתעלם מהסוגיה ונתמקד במדידה של האימפקט של ההתערבות בעבר, ורק בסוף המדריך נחזור לדון בשאלות של תועלת שולית ומקום לתרומות נוספות.
מה היה קורה אילו?
אספקט קריטי נוסף שחשוב להתייחס אליו בבחינת ההשפעה של תוכנית הוא סוגיית ה-counterfactual, כלומר איך העולם היה נראה אלמלא התוכנית. למשל, אם מבין הפונים לייעוץ קריירה בתוכנית שלנו כ-70% הצליחו למצוא עבודה כעבור חצי שנה, זה מפתה לומר שהתוכנית שלנו אפקטיבית ב-70% במציאת עבודה, אך זו תהיה טעות חמורה. אנחנו מוכרחים לשאול את עצמנו מה היה קורה אלמלא התוכנית, כלומר – כמה מתוך אותם אנשים היו מצליחים למצוא עבודה בלעדינו? אם התשובה היא 50%, אז האפקטיביות של התוכנית היא רק 20%. ואם התשובה היא 75%, המסקנה הלא נעימה היא שיכול להיות שהתוכנית שלנו למעשה רק גורמת נזק.
מקור: JPal
דוגמאות קיימות להערכת אימפקט
הארגון הבולט ביותר שמפרסם דוחות אימפקט הוא GiveWell, שמדרג עמותות ותוכניות המסייעות לפתרון בעיות עוני גלובלי. ל-GiveWell מוניטין בביצוע מחקר ריגורוזי ומעמיק של תוכניות שונות, והם מפרסמים דירוג של העמותות המובילות בעולם בתחום העוני הגלובלי. בנוסף ל-GiveWell, ישנם ארגונים אחרים המזוהים עם אלטרואיזם אפקטיבי שמבצעים הערכות אימפקט. כך למשל ארגון Animal Charity Evaluators מפרסם הערכות של עמותות המסייעות לבעלי חיים, והארגון Founders Pledge פרסם דוח המפרט על תוכניות מובילות להפחתת התחממות גלובלית. גם בקהילה הישראלית של אלטרואיזם אפקטיבית אנחנו פועלים לכתיבת דוחות הערכת אימפקט של עמותות בארץ.
מקורות נוספים להעמקה
על החשיבות של ראיות: למה חשוב לחפש ראיות שיגבו את האפקטיביות של התערבויות, ואיזה סוג של ראיות הן אמינות.
ה-handbook של Charity Entrepreneurship להקמה וניהול של מיזם חברתי יעיל
שלבי ביצוע הערכת אימפקט – תקציר
בהמשך המדריך נסביר כיצד לבצע הערכת אימפקט של התערבויות למען הזולת בשבעה שלבים:
א. הגדרת מטרות התוכנית
ב. הגדרת מדדים אובייקטיבים
ג. בחירת המדדים למחקר הנוכחי ובניית תוכנית מחקר
ד. איסוף הנתונים
ה. ניתוח ההשפעה של התוכנית
ו. ניתוח עלויות
ז. ביצוע ההערכה הסופית וכתיבת דוח הערכת אימפקט
לכל אחד מהשלבים נקדיש פרק במדריך. בכל פרק נסביר מהי המטרה של אותו שלב במחקר, ניתן דוגמאות, ונתעכב על נקודות בעייתיות וכשלים אפשריים שזקוקים לתשומת לב מיוחדת.
אם ברצונך לבצע הערכת אימפקט ויש לך את המוטיבציה לצאת מיד לדרך, זה מצויין, אבל אנחנו מאוד ממליצים בכל זאת להתאזר בסבלנות וקודם כל לקרוא את כל המדריך מההתחלה ועד הסוף, ולא לרוץ ישר לבצע את השלבים השונים, משום שחלק מהנושאים שאנחנו נוגעים בהם בשלבים מוקדמים מתבהרים לחלוטין רק לקראת סוף ההסבר של התהליך כולו. כמו כן, אם כבר קראת את המדריך והגעת לשלב של ביצוע המחקר עצמו, מומלץ שהתהליך ילווה בכתיבה מסודרת, כאשר בסוף כל אחד משבעת השלבים יהיה לך ביד סיכום מסודר של התוצרים הנדרשים וכל מה שעשית לאורך אותו פרק (למשל, בסוף הפרק הראשון, לא רק לחשוב בראש על מטרות ההתערבות, אלא לרשום אותן באופן מפורש). המטרה היא לסיים את התהליך עם דוח אימפקט מסודר שמוכיח באופן קפדני, מנומק ומבוסס ראיות את רמת האפקטיביות של ההתערבות שבחרת למדוד.
לכתיבה מסודרת יש הרבה יתרונות. קודם כל, היא מאפשרת סנכרון ועבודת צוות טובה בין מספר אנשים שיוכלים לעבוד בשיתוף פעולה על המחקר, וכן לצרף אנשים חדשים ולאפשר להם להתעדכן בקלות על עבודה שכבר נעשתה. בסוף התהליך, היא תאפשר להפיץ את מסקנות המחקר לקהל רחב (את דוח האימפקט ניתן יהיה לשלוח לעובדי העמותה, להנהלה, לתורמים פוטנציאלים, לשותפים או לקהל הרחב). לבסוף, כתיבה מסודרת מסייעת לתהליך החשיבה גם בינינו לבין עצמנו, ומאפשרת לחדד את המסקנות שלנו ולהבין מה השורה התחתונה של מה שאנחנו עושים. למשל, כאשר ננסה לנסח את מטרות ההתערבות בכתב, יכול להיות שנבין שהן פחות ברורות ומוגדרות היטב ממה שהיה נדמה לנו כאשר חשבנו על זה בראש (מה שאומר שיש להקדיש לעניין מחשבה נוספת).
שלב א': הגדרת מטרות התוכנית
על מנת שנוכל להחליט מה בכלל אנחנו רוצים למדוד וכיצד לעשות את זה, רצוי שנתחיל מלנסות להבין ולנסח באופן מפורש מהן בכלל המטרות של התוכנית שאנחנו מנסים להעריך. למי בדיוק אנחנו מנסים לעזור ומהו השינוי שאנחנו מנסים לחולל בעולם?
לענות על "מה", לא על "איך"
בשלב הזה חשוב לשים דגש על מה התוכנית מנסה להשיג, ולא על איך היא מתיימרת לעשות זאת. אם למשל מדובר בתוכנית לחלוקת שאריות מזון לנזקקים, המטרות של התוכנית יכולות להיות הקניית ביטחון תזונתי לנזקקים, הוצאתם מעוני, או הקלת חומרת העוני שלהם. אך לא יהיה זה נכון לתאר את מטרת התוכנית כאיסוף או חלוקת מזון, משום שהאספקטים הללו בתוכנית הם האמצעי לצורך השגת מטרת התוכנית אך לא המטרה עצמה.
על מנת לחדד את ההבדל בין ה-מה ל-איך, יכול לעזור להפריד בין הערכים האינטרינזים שלנו לבין הערכים האינסטרומנטלים. ערכים אינטרינזיים (intrinsic/terminal values) הם הערכים שמשקפים מה באמת חשוב לנו, למשל שכל בני-האדם יחיו חיים טובים ברווחה. לעומת זאת, ערכים אינסטרומנטליים (instrumental/extrinsic values) הם ערכים שחשובים לנו רק כאמצעי לקידום ערכים אחרים. כך למשל, אנחנו עשויים לראות ערך בהצלת מזון ומניעת זריקה או בזבוז שלו, אך אם נעצור לחשוב מדוע בעצם זה חשוב לנו לא לזרוק מזון שמיש נראה שיש לכך סיבה ברורה: המזון יכול עדיין לשמש אנשים שזקוקים לו. כלומר, אי-זריקת מזון שמיש הוא ערך אינסטרומנטלי ולא ערך אינטרינזי. באותו אופן הערך "לדאוג למזון לנזקקים" יכול להיחשב על ידי חלקנו כערך אינטרינזי, אך גם לערך הזה ניתן למצוא צידוק על ידי ערכים בסיסיים אפילו יותר, כמו הערך "לסייע לאנשים לחיות ברווחה". כאשר אנחנו מגדירים את המטרות של התוכנית שלנו, רצוי שהמטרות הללו ישקפו ערכים שאין לנו ולו ספק קל שאכן מדובר במשהו חיובי ובעל ערך.
ככל שהמטרות שלנו ישקפו באופן ברור יותר את הערכים האינטרינזים שלנו ואת הדברים שאנחנו שואפים להשיג בעולם, ופחות את האמצעים הספציפיים שמיושמים בתוכנית שלנו (שהם אולי בעלי ערך אינסטרומנטלי) – כך גם תתאפשר לנו יותר גמישות בהמשך הדרך להסיק מסקנות מתהליך המדידה וליישם שינויים בתוכנית. בדוגמא לעיל – אם אנחנו מפעילים שתי התערבויות שמנסות לשפר את הרווחה של נזקקים, אחת בעזרת חלוקת מזון והשניה באמצעות חלוקת כסף, ובסוף ההערכה גילינו שאחת אפקטיבית בהרבה מהשנייה, נוכל לנתב את משאבינו אל ההתערבות האפקטיבית יותר ובכך לעזור יותר לנזקקים באותה כמות של משאבים.
זה עדיין לא הזמן לדאוג לשאלות פרקטיות של מדידה
זכרו שזהו רק השלב הראשון מתוך שבעה בתהליך הערכת האימפקט. בשלב הזה עדיין אין צורך (ואפילו מומלץ להימנע) מלחשוב על האם ואיך המטרות שהגדרנו ניתנות בכלל למדידה, או אפילו אם הן מוגדרות באופן חד-משמעי. לצורך הדוגמא, "שיפור הביטחון העצמי של החניכים" יכולה להיות מטרה לגיטימית לחלוטין עבור תוכנית חינוכית, אפילו אם לא ברור עד הסוף איך בדיוק מוגדר "ביטחון עצמי" ואיך מודדים אותו.
בשלבים הבאים נדאג להבין האם ניתן או לא ניתן למדוד דברים בצורה מדוייקת. בפרט, בפרק הבא נעסוק ביתר פירוט בשאלה כיצד ניתן לפרוט את המטרות הכלליות שהגדרנו לכדי רשימה של מדדים קונקרטים וניתנים למדידה. יכול אפילו להיות שנאלץ לזנוח מדידה של חלק מהמטרות שהגדרנו בשלב הזה בשל קשיי מדידה, אבל בשלב הזה זה עלול רק לצמצם את החשיבה שלנו ולהגביל אותנו אם ניכנס לשיקולים הללו בטרם עת. על כן בשלב הזה מוטב לעת עתה להתעלם משיקולים פרקטיים ולרשום את המטרות שנראות הכי נאמנות לשאיפות הכנות שלנו.
מצד שני, למרות שזה בסדר לבחור בשלב הזה מטרות שנראות בעייתיות למדידה, חשוב שהן עדיין יהיו מספיק ספציפיות לסוג השינוי שאנחנו מנסים לעשות. למשל, "לייצר השפעה חיובית" עלול להיות כבר כללי מדי.
עבדו באופן מסודר
המטרה היא שבסוף השלב הזה תהיה לנו רשימה מסודרת של המטרות של התוכנית. וכן, הכוונה לרשימה כתובה. לא כדאי להסתפק רק בלחשוב ולשוחח על זה. חשוב לוודא שכל המטרות כתובות במסמך באופן מסודר ושכל מי שמעורב בפרויקט מסכים על הנוסח המדויק של המטרות. הרשימה הזאת תשמש אותנו ותהיה חשובה מאוד במהלך השלבים הבאים של תהליך ההערכה.
כמה שפחות מטרות, יותר טוב
למרות שלאורך כל הפרק הזה דיברנו על מטרות ברבים, חשוב לציין שעדיף שנסיים את תהליך הגדרת המטרות עם כמה שפחות מהן. ככל שניתן יהיה להגדיר את מה שהעמותה מנסה להשיג באופן קומפקטי יותר, כך יהיה לנו ברור יותר בהמשך הדרך האם המדידה שלנו אכן משקפת את המטרות שהגדרנו.
דוגמאות
על מנת לסייע בניסוח מטרות התוכנית, הנה כמה דוגמאות למטרות שניתן לנסח עבור תוכניות היפותטיות שונות:
תיאור התוכנית | מטרת התוכנית |
הרצת סדנאות וליווי קריירה לנשים המתקשות במציאת עבודה. | צמצום האבטלה בארץ בקרב נשים. |
חניכה של בני-נוער עם רקע עברייני על ידי מדריכים צעירים המשמשים עבורם דוגמא חיובית. | שיקום של בני-נוער עם רקע עברייני, צמצום הפשיעה שלהם, והכנסתם למסלול חיים תקין ונורמטיבי. |
ניהול קמפיינים לעידוד תזונה טבעונית. | הפחתת צריכת מזון מן החי. |
לובי פוליטי להובלת חקיקה נגד מוצרים לא יעילים אנרגטית. | הפחתת פליטת גזי חממה לאטמוספירה. |
שלב ב': הגדרת מדדים אובייקטיבים
אחרי שהגדרנו את המטרות של התוכנית, עבור כל אחת מהמטרות נרצה לבחור מדדים אובייקטיבים שמשקפים את המטרה בצורה טובה. כמו כן בשלב הזה נרצה לחשוב על מקורות מידע שונים שיאפשרו לנו למדוד אותם.
בשלב הזה אנחנו עדיין יותר בתהליך של סיעור מוחות (brainstorming) מאשר בניית תוכנית פעולה מסודרת (לכך נגיע בפרק הבא), ולכן זה חיובי ורצוי לשמור על ראש פתוח ולכתוב הרבה הצעות שונות, גם אם את רובן נפסול בסופו של דבר בשלבים הבאים. בפרט, גם אם אנחנו עדיין לא משוכנעים אם יש לנו דרך טובה להשיג נתונים עבור מדדים מסוימים, רצוי עדיין לכתוב אותם. המטרה בסוף תהליך החשיבה המתואר בפרק הזה היא לסיים עם רשימה של מדדים אפשריים. ככל שהרשימה תכלול אפשרויות מגוונות יותר, כן ייטב. בפרט מומלץ לסיים עם רעיונות למחקר ברמות שונות של ריגורוזיות וכמות השקעה נדרשת – החל ממדדים גסים עם אמינות נמוכה (אך פשוטים וקלים לאיסוף), ועד לרעיונות למחקר ברמת ודאות גבוהה (אך פוטנציאלית קשים או יקרים לביצוע).
בשלב הזה חשוב להתנגד להטיית חשיבה נפוצה למדי לפיה "לא ניתן למדוד באמת את מה שאנחנו עושים – זה מורכב מדי בשביל מדדים פשטניים". התחושה הזאת שכיחה במיוחד בתחומים שיש לנו בהם הרבה ניסיון ואנחנו מכירים מקרוב את המורכבות שלהם. כאשר אנחנו מתיישבים לחשוב על מדדים קונקרטיים שמתיימרים למדוד את ההצלחה של הפעילות בה אנחנו עוסקים שנים רבות, שום מדד לא נראה לנו ממש מספק. המוח שלנו ישר מוביל אותנו לכל אותם מקרים פרטניים שנתקלנו בהם לאורך השנים שממחישים כיצד כל אחד מהמדדים ייכשל בשיקוף מדוייק של המטרות. הגישה הספקנית הזאת אמנם נכונה במידת מה, אך היא מחמיצה את התמונה הגדולה. חשוב לזכור שאף מדד אינו מושלם, ועד כמה שלא נשקיע בבחירת המדדים שלנו, תמיד יישאר פער מסוים בינם לבין המציאות בשטח. עם זאת, עם בחירה טובה של מדדים ניתן בהחלט להשיג שיקוף טוב של המציאות ושל השגת המטרות והיעדים של התוכנית שיאפשרו לנו לקבל תמונה כללית של האימפקט באופן הרבה יותר אובייקטיבי מאשר הסתמכות על אינטואיציה.
חשבו על מגוון רחב של מקורות מידע אפשריים
חשוב שעבור כל מדד שנגדיר יהיו לנו גם רעיונות כיצד ניתן למדוד אותו, ועל אילו מקורות מידע נוכל להסתמך. מקורות מידע נפוצים שניתן להסתמך עליהם הם סקרים ושאלונים, בקשות מידע מגופים ציבוריים (לרבות עיריות ומשרדים ממשלתיים), דיווח של עובדי או מתנדבי העמותה, מסמכים רשמיים, תצפיות בשטח, וניסויים מבוקרים.
במדע נהוג לעתים להצביע על היררכיה בחוזק סוגי ראיות שונים. לרוב קלות השגת המידע והאמינות שלו באים אחד על חשבון השני (כלומר קיים trade-off ביניהם). למשל, זה יחסית קל לערוך שאלונים, וזו כמעט תמיד אופציה ריאלית להשגת מידע, אך האמינות שלהם עשויה להיות בעייתית (עוד על כך בהמשך). בשל כך, רצוי לחשוב על מגוון רחב של מקורות מידע אפשריים.
דוגמאות
על מנת לעזור לפתוח את הראש לרעיונות שונים, נעבור על דוגמאות היפותטיות למדדים ומקורות מידע אפשריים:
מטרה | מדדים | מקורות מידע אפשריים |
צמצום אבטלה |
|
|
שיקום של בני-נוער מרקע עברייני |
|
|
הפחתת צריכת מזון מן החי |
|
|
הפחתת פליטת גזי חממה לאטמוספירה |
|
|
חשיבה על מדדים ומקורות מידע מהימנים לעתים דורשת יצירתיות וחשיבה מחוץ לקופסא. דוגמא יפה לכך היא ניסוי שנערך על ידי Faunalytics במטרה לבחון את ההשפעה של קמפיינים לעידוד תזונה צמחונית. לכאורה אין דרך לעקוב אחר צריכת הבשר בפועל של המשתתפים בתוכנית (שנחשפים לקמפיין), ואין מנוס מלהסתמך על הדיווח העצמי שלהם באמצעות שאלונים (עם כל ההטיות שכרוכות בכך). אלא שעורכי הניסוי המדובר הצליחו לחשוב על דרך יצירתית לקבל הצצה על המזון שמשתתפי התוכנית בחרו לצרוך בפועל.
אחרי שהם חשפו את המשתתפים לתכנים מסוגים שונים, הם חילקו להם במתנה שובר לרכישת כריך בבית קפה מקומי. לאחר מכן הם עקבו באמצעות אותו בית קפה האם הלקוחות שהשתמשו בשובר הזמינו כריך צמחוני או בשרי. בזכות הניסוי המבוקר הם יכלו לראות כיצד חשיפה לתכנים שונים משפיעה בפועל על צריכת הבשר של המשתתפים בתוכנית. עם זאת, ניסוי כזה יכול רק לעזור לנו לוודא שאכן היה שינוי בפועל בהתנהגות של המשתתפים, אבל הוא לא יכול לאפשר לנו לכמת את מלוא ההשפעה (בפרט למדוד את הירידה בצריכת הבשר שלהם לאורך תקופה בחיי המשתתפים). שילוב של ניסוי מבוקר (על מנת לוודא שאכן קיים אפקט) ביחד עם כלי גס להערכת סדר הגודל של השפעת התוכנית (למשל שאלון) יכולים להוות שילוב מוצלח.
המדדים צריכים להתייחס למטרות
המדדים שנבחר צריכים לשקף את העמידה במטרות התוכנית (שהגדרנו בשלב הקודם), לא את התוכנית עצמה. אם למשל אנחנו מפעילים חוגי העשרה לנערים במטרה להרחיב את ההשכלה והכישורים החברתיים שלהם ומעוניינים למדוד את העמידה במטרות האלה באמצעות שאלון, שאלות בסגנון "עד כמה אתה מרוצה מהתוכנית?" לא באמת משקפות עמידה במטרות שהגדרנו (יכול להיות שהחניכים מאוד מרוצים, אבל בסופו של דבר לא הצלחנו להרחיב את ההשכלה והכישורים החברתיים שלהם). זה לא אומר שאנחנו מתנגדים לחלוטין לשאלות כאלה. בדוגמא שלנו, יכול להיות שהאינפורמציה שנקבל על שביעות הרצון הכוללת של החניכים כן תשמש אותנו לצרכים אחרים (למשל לאתר בעיות פוטנציאליות ביישום התוכנית). אנחנו רק מדגישים שמדדים שמתייחסים לתוכנית עצמה לא בהכרח ילמדו אותנו על עמידה במטרות, ולכן לא מאוד שימושיים לצרכי הערכת אימפקט.
תזכורת: מה שחשוב זה ההפרש במדדים עם ובלי התוכנית
כפי שצוין בהקדמה, מה שברמת העיקרון צריך לעניין אותנו זה תמונת המצב עם התוכנית שלנו בהשוואה למצב ההיפותטי בו התוכנית מעולם לא היתה קיימת (counterfactual impact).
בפועל מה שהיינו רוצים למדוד זה את האפקט הסיבתי (causal effect) של התוכנית. כאשר מסתכלים על מדד כמו אחוז זכאות לבגרות למשל, מה שחשוב זה לא שיעור הזכאות כשלעצמו, אלא עד כמה הוא עלה או ירד בעקבות התוכנית. כלומר, רק למדוד את אחוז הזכאות לבגרות בקרב הנערים שלוקחים חלק בתוכנית שלנו לא ייתן לנו אינפורמציה אמיתית על האפקטיביות של התוכנית. כדי שנוכל להסיק מהנתון הזה על ההשפעה האמיתית של התוכנית, נצטרך להשוות את המדד לקבוצת ייחוס כלשהי.
השוואה פשוטה שניתן לערוך היא בין קבוצת ההתערבות לאוכלוסייה הכללית. למשל, ניתן להשוות את אחוז הזכאות לבגרות בקרב הנערים המשתתפים בתוכנית לאחוז הזכאות הכללי באוכלוסיה. אפשרות עדיפה תהיה השוואה לתת-אוכלוסיה שדומה במאפיינים דמוגרפיים לקבוצה שלנו (למשל מבחינת הרכב גילאים, מגדר, אזורי מגורים ומאפיינים סוציו-אקונומיים; בפרק ה' נדבר על בדיקות שונות שרצוי לבצע במצבים כאלה על מנת לוודא שהאוכלוסיות אכן ברות השוואה).
כאשר חושבים על מקורות מידע אפשריים למדדים שהגדרנו עבור המשתתפים בתוכנית, כדאי לחשוב גם כיצד נשיג את המידע עבור קבוצת השוואה רלוונטית. למשל, יכול להיות שנצטרך לבקש גם מאנשים שלא משתתפים בתוכנית למלא שאלון (במצב כזה נצטרך גם לחשוב כיצד לוודא שנוסח השאלון והאופן בו הוא מופץ לא יוצרים הטיות מערכתיות בין הקבוצות – עוד על כך כאשר נדבר על שאלונים). אפשרות נוספת היא לבקש מגופים ציבוריים מידע גם עבור קבוצות שאינן משתתפות בתוכנית שלנו.
בדיקת קשרים סיבתיים באמצעות ניסויים מבוקרים
כאשר משווים מדדים בין קבוצות שונות, גם כאשר שתי הקבוצות אכן נראות ברות השוואה וההשוואה נעשית באופן מחושב, תמיד ישנו חשש שההבדלים הנצפים אינם תוצאה של ההתערבות שלנו אלא של משתנים מתערבים (confounders), כלומר הבדלים בין הקבוצות שאנחנו לא מודעים אליהם. נמשיך עם אותה דוגמא ונניח שמדדנו את אחוז הזכאות לבגרות בקרב הנערים בתוכנית שלנו, ונניח שהשוונו את תוצאות המדידה לאחוז הזכאות בקבוצה מקבילה שעל פניו נראית דומה לקבוצה שלנו מבחינת מאפיינים דמוגרפיים ואכן מצאנו הבדל משמעותי בין הקבוצות.
זוהי אמנם ראיה חזקה לכך שהתוכנית שלנו אכן משפיעה על אחוז הזכאות לבגרות, אך זו אינה הוכחה ניצחת. יכול להיות שעל אף הדמיון השטחי בין הקבוצות הן בכל זאת נבדלות זו מזו, אך ההבדלים טמונים במאפיינים חמקמקים שקשה להגדיר במדויק ולמדוד אותם, כמו למשל מידת המוטיבציה של הנערים. מתקבל על הדעת שנערים יותר חדורי מוטיבציה יטו יותר לקחת חלק ולהתמיד בתוכניות חינוכיות שונות (ובפרט בתוכנית שלנו), וכמו כן שהם יטו יותר להצליח בלימודים. אם זה אכן המצב, יכול להיות שההבדל שראינו בין קבוצת הנערים שלנו לקבוצת ההשוואה אינו אלא שיקוף של רמת המוטיבציה הממוצעת בין הקבוצות השונות. זוהי בעיה אוניברסלית שקיימת בכל תחום מחקר: בלתי אפשרי להוכיח בוודאות אפקט סיבתי על סמך תצפיות בלבד.
אם רוצים באמת להוכיח שקיימת השפעה סיבתית בין השתתפות בתוכנית שלנו לבין המדד שהגדרנו, אין מנוס מלבצע ניסוי כלשהו. סוג הניסוי המועדף והנפוץ ביותר הוא ניסוי מבוקר עם הקצאה אקראית (randomized controlled trial, או בקיצור RCT). הרעיון בבסיס RCT הוא ביצוע חלוקה אקראית של המשתתפים בניסוי לקבוצת התערבות וקבוצת ביקורת.
בעוד המשתתפים בקבוצת ההתערבות יקבלו את ההתערבות שאנחנו מעוניינים לבדוק (למשל חניכה על ידי המתנדבים בתוכנית), המשתתפים בקבוצת הביקורת ישמשו רק כקבוצת השוואה, ולכן נשתמש בה רק לצורך איסוף המדדים שהגדרנו.
מאחר ואת החלוקה לקבוצות הגדרנו באופן אקראי לחלוטין (זהו כלל קריטי שחייבים לשמור עליו על מנת לבצע RCT תקין), אנחנו יכולים להיות בטוחים שהבדלים מערכתיים בין הקבוצות הם אך ורק כתוצאה של ההתערבות שלנו, ובכך להוכיח שאכן קיים אפקט סיבתי ולמדוד אותו. זהו הרעיון של ניסויים מבוקרים על רגל אחת. על תכנון וביצוע מחקרים אקראיים מבוקרים ניתן לקרוא במאמר שכתבנו בנושא.
קשה להפריז בכוח הרב שיש לניסויים מבוקרים ביכולתם לעזור לנו לענות על שאלות סיבתיות, למדוד בצורה אמינה את ההשפעה של התערבויות שונות, וללמוד אילו גישות יעילות יותר ואילו פחות (ואילו לא יעילות בכלל או אפילו מזיקות). בתחום הבריאות למשל, לא תהיה זו הגזמה לומר שכל עולם הרפואה המודרני נשען על RCT. אישור רגולטורי של תרופות וחיסונים (בפרט בידי מנהל המזון והתרופות האמריקאי) מחייב ביצוע מחקרים קליניים ארוכי-טווח עם הקצאה אקראית של מטופלים לקבלת הטיפול הרפואי החדשני או לקבלת פלצבו. את פרס נובל בכלכלה לשנת 2019 קיבלו שלושה חוקרים שהכניסו את השימוש ב-RCT לתחום הכלכלה ההתפתחותית, על מנת לאפשר לזהות אילו התערבויות להוצאת אנשים מעוני אכן עובדות.
מצד שני, ניסויים מבוקרים הם מורכבים ויקרים מאוד לביצוע (בכסף, זמן וקשב ניהולי). בשל כך, לרוב לא היינו ממליצים למדוד התערבות באמצעות RCT כבר מהשלב הראשון, אלא להתחיל במדידות פשוטות, קלות וזולות יותר לביצוע, גם אם הן נותנות הערכות גסות יותר וברמת וודאות הרבה יותר נמוכה. רק לאחר שהתערבות באמת נראית מבטיחה על סמך נתונים תצפיתיים כדאי לשקול ברצינות ביצוע של ניסויים מבוקרים.
בקשות מידע מגורמים מנהליים
יכול להיות שחלק מהמידע הנחוץ לנו בשביל המחקר כבר קיים בידי גופים שונים (למשל בידי משרדים ממשלתיים, עיריות, בתי ספר, קופות חולים או בנקים). לסוג כזה של מידע יתרונות רבים (כפי שנראה בפרק הבא) וכדאי מאוד לשקול להשתמש בגורמים מנהליים כמקור מידע.
הסתמכות על מחקר קיים
כמעט אף פעם לא כדאי לנסות להמציא את הגלגל מחדש, והדבר נכון במיוחד בתחום המחקר. סביר שאף אחד לא יחקור את ההתערבות הספציפית שלכם במקומכם, אבל יכול מאוד להיות שישנן שאלות כלליות שרלוונטיות למחקר שלכם שכבר נחקרו בעבר. אם למשל מעניין אתכם למדוד את ההשפעה של ההתערבות שלכם בהפחתת פליטת גזי חממה, יכול להיות שמספיק למדוד את ההשפעה של ההתערבות על הפחתת צריכת חשמל, ולהשתמש בהערכות קיימות אודות הקשר בין צריכת חשמל לפליטת גזי חממה. דוגמא אחרת לשימוש רלוונטי במחקר קיים הוא במציאת עדויות לאפקטיביות של התערבויות דומות להתערבות שלכם (גם אם הן לא לחלוטין זהות). למשל, גם אם אין הרבה עמותות בארץ שמנסות לשפר הישגים בלימודים באמצעות חניכה אישית של בני נוער, יכול להיות שישנן לא מעט התערבויות דומות במקומות אחרים בעולם, ויכול להיות שכבר בוצעו ופורסמו מחקרים על האפקטיביות של התערבויות מהסוג הזה.
יכול מאוד להיות שכדאי לכם, רגע לפני שאתם באים לבנות בעצמכם תוכנית מחקר, להסתכל מה אחרים עשו ומה הם גילו. ראשית, זה יכול לתת לכם רעיונות טובים כיצד כדאי לחקור את ההשפעה שלכם. כמו כן, זה יכול לתת לכם הערכה ראשונית לסדר הגודל של ההשפעה שאתם אמורים לצפות לה (ובאמצעות כך תוכלו לבדוק עד כמה התוצאות שלכם הגיוניות ועולות בקנה אחד עם הספרות המחקרית הקיימת, מה שיכול לחזק את המסקנות שלכם, או להעלות סימני שאלה).
לבסוף, יכול להיות שהמחקר הקיים עונה בצורה כל כך טובה על השאלות שלכם עד שתגיעו למסקנה שבכלל אין צורך בביצוע מחקר נוסף. אם למשל אתם מתלבטים האם לבצע התערבות מסוג א' או מסוג ב' וראיתם שקיימות המון עדויות לאפקטיביות הרבה של התערבויות מסוג א', בעוד אופציה ב' נראית הרבה פחות מבטיחה (בין אם משום שהתקבלו תוצאות מאכזבות, או שהאופציה בכלל לא נחקרה), יכול להיות שזה יספיק עבורכם על מנת לקבל את ההחלטה להשקיע כרגע את המשאבים באופציה א'. שימוש אפשרי נוסף במחקר קיים הוא לצורך שיערוך של ערכים שלא מדדנו על סמך ערכים שכן מדדנו. למשל, יכול להיות שמדדנו את ההשפעה של חניכה על כל משתתף רק בטווח זמן קצר של חודשים ספורים ונרצה לשערך באמצעות המדידה הזאת את ההשפעה לה ניתן לצפות לאורך זמן ארוך יותר. אם קיימת התערבות דומה עם הערכות של ההשפעה קצרת וארוכת הטווח שלה, ניתן להשתמש במידע הזה לצורך הערכה גסה של ההשפעה ארוכת הטווח מתוך ההשפעה קצרת הטווח במקרה שלנו.
שלב ג': בחירת המדדים למחקר הנוכחי ובניית תוכנית מחקר
אחרי שהגדרנו הרבה מדדים אפשריים והיינו פתוחים להצעות שונות, זה הזמן להתחיל להתמקד ולקבל החלטות קשות. בשלב הזה נבחר את המדדים בהם נרצה להתמקד לצורך המחקר הנוכחי, ונבנה תוכנית מחקר מסודרת שתאפשר לנו (בשלב הבא) לצאת לדרך ולאסוף נתונים. בפרט נדון בשיקולים חשובים לבחירת המדדים ומקורות המידע ולתכנון המחקר.
בחירת מדדים למחקר
אידיאלית, היינו רוצים לסיים את התהליך עם מדד אחד, אבל אם אין אף מדד בודד שמשקף את המטרות של התוכנית בצורה טובה (או אם זה נורא פשוט וזול בשבילנו לאסוף מדדים נוספים על הדרך) אפשר גם להחליט לצאת לדרך עם כמה מדדים שונים.
יש מספר שיקולים שחשוב לקחת בחשבון כשבוחרים מדד עבורו נוכל לבצע מחקר טוב. השיקולים העיקריים בבחירת מדד הם:
עד כמה הוא משקף את המטרות של התוכנית, ועד כמה ברור שמדובר במשהו חיובי שהיינו רוצים למקסם: אם נצליח להוכיח שאנחנו ממש טובים במדד הזה – האם בהכרח כולם ישתכנעו שהצלחנו לעשות משהו חיובי? לדוגמא, עבור התערבות של עידוד מעבר לאנרגיה ירוקה, לא נרצה למדוד עלייה ממוצעת בצריכה השנתית של אנרגייה ממקורות מתחדשים ע"י משק בית שמשתתף בהתערבות, כי עליה בשימוש באנרגיה ממקורות מתחדשים לא בהכרח מעידה על שינוי חיובי (אולי מודבר בעליה בצריכת חשמל בנוסף למקורות קלאסיים). במקום זאת, נוכל למדוד צמצום שימוש באנרגיה ממקורות לא מתחדשים, מדד שכנראה משקף יותר טוב את השינוי שבאמת היינו רוצים לחולל בעולם.
כמה קשה להשיג את המידע הרלוונטי, ואיזה משאבים נצטרך בשביל ביצוע המחקר: האם המדד שלנו באמת מדיד? עד כמה סביר שנצליח להשיג את המידע שאנחנו צריכים? כמה זה צפוי לעלות לנו (בכסף, כוח אדם וקשב ניהולי)? האם נוכל לאמוד את המדד הזה גם על קבוצה מקבילה לקבוצת המשתתפים בהתערבות?
אובייקטיביות וחוזק ראיות: האם תהליך המדידה שנבצע כדי לאמוד את המדד נתון להטיות שונות? לדוגמא, אם אנחנו מתלבטים בין מדדים שונים, שאחד נוכל לאמוד בעזרת נתונים ציבוריים על שיעורי אבטלה אבל את השני נוכל לאמוד רק עם שאלונים המכילים שאלות סובייקטיביות ניתנות להטיה, נעדיף את הראשון.
מציאת מדד אחד לפחות שעונה בצורה סבירה על שלושת הקריטריונים הנ"ל היא קריטית לביצוע מחקר מדידת אימפקט. עם זאת, לעתים נצטרך להתפשר על חלק מהשיקולים. למשל, יתכן שבגלל היקף המשאבים הזמינים למחקר, נבחר מדד שיסתמך על ראיות פחות חזקות. לעתים ההחלטה הנכונה היא לעשות מחקר פשוט, זול ומקורב. אם זהו מחקר האימפקט הראשון שאנחנו מבצעים על התוכנית, אם אנחנו בשלב מוקדם שלה או אם יש חוסר ודאות גדול לגביה, אפשר ורצוי להתחיל במחקר פשוט. חבל להשקיע המון משאבים ב-RCT יקר אם יש סיכוי גבוה ששאלון יגלה לנו שאנחנו בכלל לא בכיוון.
בחירת מקורות איסוף מידע
כחלק מתוכנית המחקר שאנחנו בונים, נרצה להחליט גם כיצד לאסוף את הנתונים. יש הרבה דרכים אפשריות, והבחירה שלנו תהיה תלויה בין היתר בסוג המדדים שנרצה לאמוד. נעמיק בהבדלים בין סוגי הנתונים השונים שאנחנו עשויים לאסוף ובשיקולים שינחו את ההחלטה שלנו על דרך איסוף.
שני מקורות עיקריים של מידע שנתמקד בהם בתת-הפרק הזה הם שאלונים וגורמים מנהליים. חשוב לציין שאנחנו מתייחסים לשאלונים באופן מאוד רחב, ולא רק במובן הצר של סקרים כלפי מוטבי העמותה. למשל, איסוף מידע מעובדים או מתנדבים של העמותה (כגון בקשות לדיווח על מפגשים שהם קיימו עם המוטבים ומה בדיוק התרחש בהם) גם כן נכללים תחת הקטגוריה של שאלונים. באופן דומה, בקשות מידע מגופים מנהליים גם כן כוללים מגוון רחב של סוגי מידע: החל מדוחות של עיריות, דרך ציונים מבתי ספר, ועד רשומות של משרד הפנים. בפרט ניתן להשיג מהם מידע ברמה האינדיבידואלית או סטטיסטיקות כלליות של קבוצות שונות. מעבר לשני סוגי המקורות הללו ישנם עוד מקורות מידע אפשריים (שהזכרנו בפרק ב') שלא נפרט עליהם יותר, כולל תצפיות ישירות (שיכולות להיות רלוונטיות למשל בתחום הרפואה) או בקשות של מסמכים מאנשים פרטיים באופן ישיר (מה שבמידה רבה דומה לבקשות מידע מגורמים מנהליים).
איסוף מידע מגורמים מנהליים
כפי שציינו בפרק הקודם, לעיתים נוכל לגלות את הנתונים שמעניינים אותנו מגורמים מנהליים. לדוגמא – אם אנחנו מעריכים התערבות שמטרתה להוציא משפחות ממעגל העוני, אולי נוכל לגלות את הנתונים על אחוזי העוני בקבוצת ההתערבות וקבוצת הביקורת בעזרת פנייה לביטוח לאומי או שירותי הרווחה.
יתרונות:
נתונים אמינים – לרוב מתייחסים למדדים חד-משמעיים (שלא נתונים לפרשנות) וללא הטיות איסוף.
פשוטים לאיסוף (לאחר שקיבלנו אישור להשתמש בהם) – לא נדרשת עבודת שטח מול משתתפים, ולכן סביר שידרשו פחות משאבים לאיסוף. מצד שני, הקמת שיתוף הפעולה הנדרש מול הגופים המנהליים עשויה לדרוש מאמץ.
חסרונות:
לעתים זמינים רק ברמת הקבוצה – עשוי להיות מורכב להשיג מידע אינדיבידואלי על אנשים מגורמים מנהליים, ולעיתים קרובות נוכל לקבל רק ממוצעים על פני קבוצות גדולות של אנשים. אם משתתפי ההתערבות הם לא פלח דמוגרפי סטנדרטי (לדוגמא, כל בני מגזר מסוים מתוך שכונה שלמה), אולי לא נוכל לקבל מידע רלוונטי.
מקובעים – אין לנו שליטה על אילו נתונים נאספים, אז אם נרצה למדוד משהו לא סטנדרטי שלא סביר שנמדד כבר, כנראה שלא נוכל להיעזר בגורמים מנהליים.
ניתן לקרוא עוד על איסוף מידע מגורמים מנהליים (בדגש על גופים ציבוריים) במאמר שלנו בנושא.
שאלונים
אפשרות אחרת היא לשאול ישירות את מוטבי ההתערבות, מקורבים אליהם או מפעילי התוכנית את מה שמעניין אותנו, דרך שאלונים. לדוגמא – אם אנחנו מעריכים התערבות שמטרתה שיפור ביצועים בלימודים של בני נוער, נוכל לשאול את המורים או את ההורים של בני הנוער (או אותם ישירות) על הציונים שלהם בבית הספר.
יתרונות:
גמישות – נוכל לשאול שאלות מגוונות ולאמוד כמעט כל דבר שנרצה.
קלים לתכנון – כתיבת שאלונים אמינים היא משימה לא טריוויאלית, אבל לרוב תהיה פשוטה יותר לתכנון משיטות איסוף מתוחכמות.
חסרונות:
מוטים – יש מספר רב של דרכים בהן המידע שנקבל עשוי להיות מוטה או שגוי ולגרום לנו לשגות בהערכת המדדים. כמה דוגמאות חשובות לכך הן:
אם השאלות לא מספיק ברורות ואובייקטיביות, התשובות לא ישקפו היטב את מה שהיינו רוצים למדוד ויהיו תלויות בגורמים חיצוניים (למשל איך הסוקר שאל את השאלה וענה על בקשות להבהרה).
יש הרבה סוגי שאלות שאנשים לא תמיד יענו עליהן בכנות. הטיה נפוצה שמופיעה בשאלוניים היא הטיית ריצוי חברתי (social desirability bias): נשאלים נוטים להשיב בצורה שלהערכתם "תוציא אותם טוב" או תרצה את מפעילי התוכנית, ולא בהכרח בצורה שתשקף את המציאות. לקריאה נוספת והצעות איך לעקוף את ההטייה, אפשר להסתכל בפוסט הזה.
מה שאנשים זוכרים יכול להיות מושפע מעצם הדברים שנרצה למדוד. למשל, אנשים שההתערבות לא השפיעה עליהם בצורה משמעותית עשויים לזכור פחות פרטים מאלו שכן, ולכן עשויים לא למלא תשובות לשאלות חשובות, או למלא אותן בצורה שגויה. כתוצאה מכך, אנחנו עשויים להעריך ביתר את השפעת התוכנית, משום שנקבל יותר תשובות ממשתתפים להם התוכנית הועילה.
שאלונים הם לרוב השיטה הראשונה שעולה לראש כשמתכננים מחקר במדעי החברה ולעתים הם האופציה הטובה ביותר, אבל בגלל החסרונות שלהם – אנחנו ממליצים לשקול שיטות אלטרנטיביות כשאפשר. אידיאלית, עדיף למדוד את ההתנהגות של אנשים בפועל מאשר לשאול אותם מה הם עושים. לדוגמא, אם נרצה למדוד את ההשפעה של התערבות שמעודדת אנשים לעבור לתזונה צמחונית על צריכת הבשר שלהם, נוכל לחלק להם וואצ'רים לסופר ולראות כמה מהם קונים איתם בשר (וכמה בשר) במקום לשאול אותם כמה בשר הם אוכלים.
הרבה מחקרים במדעי החברה מבוססים על שאלונים, ויש הרבה חומרים שימושיים שיכולים לעזור בכתיבת שאלונים. לקחנו כמה מהחומרים האלו וסיכמנו אותם לכדי מאמר נפרד על בניית שאלונים. אם אתם מתכננים להשתמש בשאלונים בשביל המחקר, אנחנו מאוד ממליצים להסתכל עליו.
בחירת קבוצת השוואה
כדי להעריך את האימפקט שלנו, נרצה להשוות את המדדים שבחרנו בין קבוצת המשתתפים במחקר לבין הערכים של אותם המדדים שהיו צפויים לאותה קבוצת משתתפים אלמלא ההתערבות (ה-counterfactual). יש כמה דרכים נפוצות להעריך זאת.
השוואה בזמנים שונים (cohort study)
ניתן להשוות בין אומדן של המדדים בשתי נקודות זמן שונות: 1) לפני ההתערבות, ו-2) אחרי שאנחנו מצפים שהשפעת ההתערבות תקרה. לדוגמא, נניח שאנחנו מעוניינים להעריך את האימפקט של תוכנית המספקת טיפול תרופתי נגד תולעי מעיים לילדים במדינות מתפתחות והמדד שלנו הוא עומס תולעים במערכת העיכול. תחת ההנחה שמדד זה לא צפוי להשתנות באופן משמעותי תוך זמן כה קצר ללא התערבות במהלך הימים הבודדים סביב מתן התרופה, נוכל למדוד את עומס התולעים בקרב המשתתפים לפני ואחרי מתן הכדורים.
ברוב המקרים, ההנחה שהמדד לא משתנה ללא ההתערבות לאורך תקופת המעקב שגויה, ולכן סוג זה של מחקר מאוד בעייתי בדרך כלל. רוב המדדים נוטים להשתנות גם בהיעדר התערבויות, מה שיביא לשגיאה בהערכות שלנו. דוגמא חשובה לכך היא נסיגה אל הממוצע (תופעה עליה נפרט בפרק ה'). בדוגמא של הטיפול בתולעים שתיארנו, משום שמשך המעקב אחר המשתתפים במחקר מאוד קצר (ימים בודדים), ההנחה שלא צפוי שינוי משמעותי ללא הטיפול התרופתי היא כנראה סבירה, אבל ברוב המקרים, בעיקר כאשר נרצה למדוד תקופת זמן ממושכת יותר, לא ניתן להסיק הרבה מהשוואה בין נקודות זמן שונות. יתרה מכך, לרוב יהיה לנו חשוב לוודא שהאפקט של ההתערבות שלנו נמשך לאורך זמן ולא מתפוגג לאחר תקופה קצרה, ולכן יהיה בעייתי לעשות מחקר השוואה בין נקודות זמן קרובות מדי. אם לדוגמא היינו רוצים לבדוק את האפקט של טיפול בתולעי מעיים על הנוכחות של הילדים בבית הספר (מתוך תקווה שפתרנו בעיה בריאותית שגרמה להם להישאר בבית), היינו נאלצים לבצע מחקר שעוקב אחר התלמידים במשך חודשים או אפילו שנים. במצב כזה, השוואה בין נקודות זמן שונות היתה נעשית הרבה פחות אינפורמטיבית, משום שהבדלים בהגעה של הילדים לבית הספר לאורך שנים יכולים לשקף מגמות טבעיות שהיו קורות בכל מקרה (מסיבות שבכלל לא תלויות בנו), ולא בהכרח כתוצאה של הטיפול התרופתי.
עם זאת, למרות הבעייתיות המובנית במחקר השוואה לאורך זמן, לעתים הוא עדיין הבחירה המועדפת. מדובר במחקר פשוט יחסית, שלא דורש להנדס קבוצת השוואה מתוחכמת (שעשויה להיות שונה מדי מקבוצת ההתערבות), והוא לרוב זול יותר להרצה. על אף המגבלות שלו, מחקר השוואה לאורך זמן יכול לתת קריאת כיוון גסה למדידת האימפקט של התערבות, על מנת לבחון האם בכלל יש טעם בביצוע מחקר מורכב ויקר יותר.
השוואה לקבוצה דומה (case-control study)
אפשרות אחרת היא לאמוד ולהשוות את המדדים בין קבוצת האנשים שקיבלו את ההתערבות (cases) לבין קבוצת אנשים שדומה לה דמוגרפית (controls). לדוגמא, אם ההתערבות שלנו מנסה לשקם נוער בסיכון והמדד שלנו הוא פשיעה של בני נוער, נוכל להשוות את שיעורי הפשיעה בין בני נוער שהשתתפו בתוכנית שלנו לבין בני נוער מרקע דומה שלא השתתפו בה.
יתרון משמעותי של הגישה הזו הוא שניתן לבצע את המחקר בדיעבד אחרי שההתערבות כבר נעשתה. כתוצאה מכך, המחקר יכול להיעשות באופן מיידי ועדיין למדוד השפעות ארוכות טווח (בניגוד למחקר השוואה בין זמנים, שעלול להימשך שנים). כאשר הוא נעשה כמו שצריך, מחקר השוואה בין קבוצות יכול לספק רמת אמינות גבוהה יותר ממחקר השוואה בין זמנים, אך, כפי שמיד נראה, ביצוע מחקר השוואה בין קבוצות ברמה גבוהה יכול להיות מאוד לא טריוויאלי; ישנם הרבה מוקשים פוטנציאלים. גם כאשר המחקר נעשה כמו שצריך, כמעט בלתי אפשרי להסיר ספקות לחלוטין.
המגבלה העיקרית של מחקר השוואה בין קבוצות היא שלא בהכרח ברור אם הקבוצות בכלל ברות השוואה. ייתכנו אינספור גורמים חיצוניים המשפיעים על המדד (confounders) שעשויים להיות שונים בין קבוצת ההתערבות לקבוצת ההשוואה שלא כתוצאה מההתערבות עצמה, כגון גיל, מגדר ומצב סוציו-אקונומי. בפרק ה' נדבר לעומק על האופן בו נרצה להתחשב בגורמים הללו. אם נפספס גורמים חשובים, לא נדע להתחשב בהם ונשווה בין קבוצות שונות מהותית, מה שיביא לטעות בהערכת האימפקט של ההתערבות. יתרה מכך, יתכנו גורמים שלעולם לא נצליח למדוד ולהתחשב בהם. לדוגמא, עצם הבחירה של המשתתפים בתוכנית להשתתף בה עשויה להעיד על רמת מוטיבציה גבוהה יותר של המשתתפים ביחס לקבוצת ההשוואה, שעשויה להשפיע גם על המדדים שלנו. בדוגמא של שיקום בני נוער בסיכון, סביר מאוד שבני נוער שבחרו להשתתף בתוכנית (והמשפחות שלהם) יותר חדורי מוטיבציה באופן כללי, מה שיכול להוביל לכך שהם יטו פחות לפשיעה בלי קשר לתוכנית שלנו.
השוואה לקבוצת ביקורת (ניסוי מבוקר)
בפרק ב' הרחבנו על ניסויים מבוקרים, בהם מחלקים את המשתתפים האפשריים של ההתערבות באופן אקראי לקבוצת משתתפים ולקבוצת ביקורת, נותנים את ההתערבות רק לקבוצת המשתתפים שנבחרה באקראי, אומדים את המדדים באופן זהה על פני שתי הקבוצות לאחר ביצוע ההתערבות, ומשווים את התוצאות.
היתרון הבולט ביותר של צורת המחקר הזו הוא שהיא מסוגלת להוכיח קשר סיבתי באופן כמעט מוחלט. אנחנו משווים בין שתי קבוצות שהיו זהות לפני ההתערבות (וחולקו באקראי מתוך אותו מאגר), ולכן השוואת ממוצע המדד בין הקבוצות נותן אומדן לא מוטה להשפעה הממוצעת של התכנית על המדד (על פני האוכלוסיה ממנה נבחרו שתי הקבוצות).
מצד שני, ביצוע ניסוי מבוקר לרוב דורש הרבה מאוד משאבים. כמו כן, המחקר עצמו דורש ממפעילי ההתערבות לקבוע את קבוצת ההתערבות שלהם באקראי (להכניס את אלו שהוגרלו כמשתתפים ולא להכניס את אלו שהוגרלו כבקרה), בניגוד לשיטות האחרות בהן המחקר יכול להתבצע ללא השפעה משמעותית על הרצת ההתערבות בשטח.
ניתן לקרוא בהרחבה על תכנון וביצוע ניסויים מבוקרים עם השמה אקראית במאמר נפרד שכתבנו על הנושא.
מדד בסיס
כשיתאפשר, נרצה להעריך את המדדים שלנו בקרב המשתתפים במחקר עוד לפני ההתערבות. במחקר השוואה בין זמנים שונים (cohort study) זהו חלק מובנה מהמחקר, אבל גם כשמשווים בין קבוצות שונות (בין אם החלוקה אקראית או לא) ניתן להרוויח מההשוואה הזו. אמנם המדדים אמורים להיות זהים בממוצע בין קבוצת ההתערבות לקבוצת ההשוואה לפני ההתערבות, אבל השוואה למצב הבסיס (ומדידת הפרש במקום ערך אבסולוטי) יכולות להקטין את השונות שנובעת מגודל דגימה קטן, או לאתר בעיות (לדוגמא קבוצת התערבות וקבוצת השוואה שונות באופן מהותי). אם נאמוד את מדדי המשתתפים לפני ההתערבות, נוכל להחליף את הפרמטר שאנחנו משווים במחקר מ"ערך המדד" ל"שינוי במדד בתקופת ההתערבות", שלרוב יש לו שונות פחותה. לדוגמא, במקום להשוות את הציונים של בני-נוער שהשתתפו בתוכנית שלנו לבני נוער שלא השתתפו בה, נוכל להשוות את השיפור בציונים (או ההרעה) בין שתי הקבוצות (ובנוסף לוודא שהתפלגות הציונים לפני ההשתתפות בתוכנית נראית דומה על פני שתי הקבוצות).
איסוף נתוני עזר
מעבר למדדים עצמם, לעתים נרצה לאסוף גם נתוני עזר (covariates) אודות משתנים שעשויים להשפיע על מדדים (או להעיד על גורם אחר שמשפיע בצורה משמעותית על מדדים). בפרט, כאשר מבצעים מחקר על אנשים, לרוב יש חשיבות רבה למשתנים דמוגרפיים כגון מין, גיל ואזור מגורים. בשלב הניתוח המתואר בפרק ה' נסביר ביתר פירוט כיצד ניתן להשתמש במדדים הללו על מנת לנטרל משתנים מתערבים (confounders) בהערכת אימפקט, מה שחשוב במיוחד במחקרים תצפיתיים (לא מבוקרים), ובעיקר במחקר השוואה בין קבוצות בהם לעתים קרובות לא נוכל לדאוג לכך שכל הפרמטרים יהיו זהים בין קבוצת ההתערבות לקבוצת ההשוואה.
כתיבת תוכנית המחקר
לפני שיוצאים לדרך עם ביצוע המחקר ומתחילים לאסוף את הנתונים ולנתח אותם (כפי שנפרט בפרקים הבאים), רצוי לכתוב מסמך קצר שיסכם את כל ההחלטות שקיבלנו עד כה וישמש אותנו בשלבים הבאים. בתוכנית המחקר שנכתוב חשוב להתייחס לכל הנושאים הבאים:
מטרת התוכנית, כפי שהגדרנו אותה בשלב א'.
המדד(ים) שבחרנו להערכת האימפקט של התוכנית.
אופן השוואת המדדים והגדרת קבוצת ההשוואה (במידה ורלוונטי לסוג המחקר).
מקורות המידע מהם נאסוף את הנתונים לצורך ביצוע המחקר (עבור כל הקבוצות).
פירוט כל הנתונים שנרצה לאסוף, בפרט על המדדים, וגם עבור נתוני עזר שנזדקק להם.
במידה ומסתמכים על שאלונים, ניסוח מלא שלהם אמור להיות חלק מתוכנית המחקר.
פירוט נוסף על אופן איסוף הנתונים ובקרות איכות שנרצה לערוך (כמפורט בפרק ד').
כיצד ננתח את הנתונים על מנת להעריך את האימפקט של ההתערבות (במפורט בפרק ה').
שלב ד': איסוף הנתונים
אחרי שתכננו את המחקר בפירוט, ובפרט בחרנו איזה נתונים ישמשו אותנו למחקר וכיצד נאסוף אותם, מגיע שלב איסוף הנתונים, כלומר תחילת הרצת המחקר עצמו. זהו השלב בביצוע מחקר אימפקט שלרוב דורש את רוב הזמן והמשאבים של המחקר.
מאחר והפרקטיקות המדויקות של איסוף הנתונים הן ספציפיות מאוד לכל מחקר, אין לנו הרבה מה להגיד על הנושא באופן כללי (על אף שזהו השלב העיקרי בביצוע המחקר); צריך פשוט לעקוב בדקדקנות אחר תוכנית המחקר שבנינו בשלב ג'. אם בחרנו לאסוף נתונים באמצעות שאלונים, ניתן לקרוא על הנושא ועל פרקטיקות מומלצות לאיסוף נתונים במאמר נפרד שכתבנו על מחקרים מבוססי שאלונים.
בשאר הפרק, נדבר רק על סוגיות מאוד ספציפיות כגון שמירת פרטיות ובדיקות ובקרות איכות שמומלץ לבצע במהלך איסוף הנתונים.
שמירה בטוחה על מידע פרטי
לעתים רבות, המידע שנאסוף יכיל מידע פרטי על משתתפי ההתערבות. כדי לשמור על פרטיות המשתתפים, נרצה לשמור על אבטחת המידע ולדאוג לכך שהמידע נחשף לכמה שפחות גורמים. נשמור את המידע על מכשירים שמוגנים בסיסמא, ולא נעביר אותו בעזרת כלים שפתוחים לכולם (כמו שירותי שיתוף קבצים פתוחים דרך לינק), אלא בכלים מאובטחים כגון שירותי אחסון ושיתוף למשתמשים מסוימים (כמו Google Drive). למידע נוסף על פרקטיקות לאבטחת מידע במחקר, ניתן לקרוא את הפוסט הזה של JPAL.
בדיקות איכות במהלך איסוף הנתונים
תוך כדי הרצת המחקר, נרצה לעקוב אחר ההתקדמות שלו ולזהות בעיות פוטנציאליות, על מנת שנוכל להגיב ולתקן בעיות שצצות בזמן אמת. נוכל לחלק את הבדיקות למספר סוגים עיקריים, עליהם נפרט בתת-הפרק הזה (במאמר על השאלונים ניתן למצוא פירוט נוסף על בדיקות נוספות שמומלץ לבצע על נתונים שנאספים בעזרת שאלונים).
בדיקות בתדירות גבוהה
ישנן בדיקות שנרצה להריץ בתדירות גבוהה (אפילו אחת ליום, או בכל פעם שמעדכנים את מאגר איסוף הנתונים). משום כך, נרצה שבדיקות בתדירות גבוהה יקרו באופן אוטומטי (ולא נצטרך לבצע בדיקה ידנית בכל פעם מחדש), בין אם ע"י כתיבת קוד ייעודי או שימוש בכלים קיימים (לדוגמא תוכנות איסוף נתוני שאלונים). לקריאה נוספת על אוטומטיזציה של בדיקות ניתן לעיין במדריך של JPAL.
דוגמאות לבדיקות שנרצה להריץ בתדירות גבוהה:
מציאה של רשומות בעייתיות, כגון נתונים חסרים, לא עקביים, או עם מזהה לא ייחודי ביחס לרשומות אחרות (לדוגמא אותו מספר תעודת זהות לאנשים שונים). לא נרצה למחוק את הרשומות הבעייתיות, בשביל שנוכל לשמור על שקיפות (ולהראות בדיעבד מה היה בעייתי ולמה טיפלנו בנתונים הבעייתיים כפי שטיפלנו בהם), אבל גם לא נרצה לנתח אותם. כלומר, חשוב לתעד את הנתונים הגולמיים ולשמור אותם כפי שהם ללא שינויים.
זיהוי מקורות בעייתיים. אם למשל אנחנו אוספים את הנתונים בעזרת סוקרים, נרצה לבדוק אם יש סוקרים שיש אצלם הרבה תשובות חריגות (outliers), נתונים חסרים או התפלגות תשובות יוצאת דופן.
בדיקות שפיות (sanity check)
בתדירות נמוכה יותר, נרצה גם לוודא שהנתונים שאספנו נראים הגיוניים. בדיקות השפיות שניתן לבצע הן ספציפיות לכל סוג של נתונים, בין אם שהנתונים נמצאים בטווחים הגיוניים, או קשורים אחד לשני בצורה הגיונית. אם לדוגמא אספנו נתונים על משכורות חודשיות של אנשים וראינו שהמשכורת הממוצעת היא 550 ש"ח בחודש, יכול מאוד להיות שהתבלבלנו בין עמודות בטבלה. כמו כן יהיה מוזר לראות רשומה על הורים בגיל 23 עם עשרה ילדים.
לב ה': ניתוח ההשפעה של התוכנית
אחרי שאספנו את הנתונים, השלב הבא הוא לנתח אותם. נרצה להעריך את האימפקט של התוכנית מבחינת המדד שהגדרנו, כלומר לענות על השאלה: מהו האפקט הממוצע של התוכנית על המוטבים שהתוכנית מתיימרת להשפיע עליהם?
לרוב, ניתוח ההשפעה מתבצע באופן הבא:
-
אומדים את המדד עבור כל אחד מהמשתתפים בקבוצת ההתערבות.
-
אומדים את המדד עבור כל אחד מהמשתתפים בקבוצת ההשוואה.
-
ממצעים את המדד על פני קבוצה 1 כדי לקבל הערכה לתוחלת של המדד עבור מוטבי התוכנית שקיבלו את ההתערבות.
-
ממצעים את המדד על פני קבוצה 2 כדי לקבל הערכה לתוחלת של המדד עבור מוטבים אפשריים של התוכנית שלא קיבלו את ההתערבות.
-
משווים (מחסרים) את שתי ההערכות ומקבלים הערכה להשפעה הצפויה של התוכנית על מוטב ממוצע.
-
מכפילים את ההערכה בכמות המשתתפים בתוכנית על מנת לקבל הערכה להשפעה הכוללת של התוכנית.
הניתוח המתואר לעיל תקף במקרה של ניסוי מבוקר (עם הקצאה אקראית של קבוצת הביקורת) וכן במקרה של מחקר השוואה תצפיתי בין קבוצות (אז תידרש יותר עבודה וזהירות בניתוח הנתונים, כפי שיפורט בהמשך, והמסקנות יהיו פחות חד-משמעיות). במקרה של השוואה בין זמנים, ניתן להתייחס למדידות המאוחרות יותר כקבוצת ההתערבות (1) ולמדידות המוקדמות יותר כקבוצת ההשוואה (2). לחלופין (ובאופן לחלוטין שקול), ניתן להעריך את השינוי אצל כל אינדיבידואל על ידי חיסור שתי המדידות שהתקבלו עבורו ולאחר מכן למצע אותן על מנת לקבל הערכה של השפעת התוכנית פר אינדיבידואל (5).
החישוב הפשוט שתואר לעיל הוא עיקר הערכת האימפקט, אבל ישנם פרטים רבים נוספים שנצטרך לשים לב אליהם ולטפל בהם כדי להימנע מהטיות שעשויות לצוץ, ועל מנת שנוכל להעריך את מידת הוודאות שיש לנו בנוגע לתוצאה הסופית. בשאר הפרק ננסה לתת תמונה של השיקולים והפרקטיקות של ניתוח נתונים לצורך הערכת אימפקט. נתאר את סוגי השגיאות השונות שאנו עשויים להיתקל בהן במחקר, וכיצד נוכל לתקן אותן או לחסום את מידת ההשפעה שלהן.
חשוב לציין שניתוח סטטיסטי לרוב דורש מיומנות מסוימת, ואנחנו ממליצים לשקול להיעזר בבעלי מומחיות בתחום. עם זאת, ננסה להציג שיקולים כלליים בניתוח סטטיסטי שלדעתנו חשוב שכל המעורבים במחקר יכירו (למרות שלא די ברמת הפירוט הזאת על מנת לרכוש את מלוא המיומנויות של ניתוח סטטיסטי). למי שרוצים להעמיק, שמנו בסוף הפרק קישורים שימושיים ללמידה מעמיקה יותר של התחום.
נחלק את השגיאות האפשריות שעשויות לגרום לפער בין ההערכות שלנו לבין המציאות לשני סוגים: שגיאה אקראית ושגיאה שיטתית.
שגיאה אקראית (random error)
גם אם נצליח להעריך בצורה מושלמת את המדד עבור כל אחד ממשתתפי המחקר וקבוצת הביקורת ללא שום שגיאת מדידה, וגם אם משתתפי המחקר וקבוצת הביקורת נדגמו באופן אקראי לחלוטין מבין מוטבי התוכנית האפשריים, עדיין ההערכה שלנו לא תהיה מדויקת במאה אחוז בגלל גורמים אקראיים. תמיד קיים סיכוי, קלוש ככל שיהיה, שאפילו שבחרנו את משתתפי המחקר באקראי, יצא שבחרנו במקרה משתתפים עבורם ההשפעה קטנה או גדולה במיוחד. שגיאת הערכה שנגרמת כתוצאה מתנודות אקראיות נקראת שגיאה אקראית (random error).
למזלנו, הודות לחוק המספרים הגדולים, אם יש מספיק דגימות אז בסיכוי מאוד גבוה ממוצע הדגימות יהיה קרוב מאוד לממוצע האמיתי באוכלוסיה הכללית (או ליתר דיוק, לתוחלת). בנוסף, ישנם כלים סטטיסטים סטנדרטיים שמאפשרים להעריך את הסיכוי שעדיין תוותר שגיאה משמעותית. אם נדגום מספרים מהתפלגות כלשהי ונמצע את כל הדגימות שלנו, נקבל ערך שמתפלג בערך כמו פעמון גאוס. מרכז הפעמון יהיה הממוצע האמיתי שאנחנו מנסים להעריך, וה"רוחב" שלו יהיה פרופורציונלי לשגיאת התקן של ההתפלגות (standard error), שגם אותו ניתן לאמוד בעזרת הדגימות. ככל שיהיו לנו יותר דגימות, שגיאת התקן תקטן והפעמון יצטמצם. כמו כן נוכל להיעזר בשגיאת התקן כדי לקבל הערכה לאי הודאות שיש לנו בהערכת הממוצע.
ההערכה תעבוד כך: ניקח את אוסף המספרים שלנו (אומדנים למדד על פני קבוצת ההתערבות ועל פני קבוצת ההשוואה), נחשב את הממוצע ואת שגיאת התקן עבור כל אחת מהקבוצות, ומהם נקבל טווחים בהם הממוצעים האמיתיים נמצאים בסיכוי טוב (נגיד 95%). בזכות הכלים המתמטיים האלה, נוכל לקבל הערכה טובה לשגיאה האקראית במחקר שלנו, וכן לדעת מראש כמה דגימות נצטרך על מנת לדאוג שהיא תהיה כמעט בוודאות קטנה. לטווח ההערכה שנקבל, בו הערך האמיתי נמצא בסיכוי גבוה (לרוב 95%), קוראים טווח ביטחון.
בתמונה: התפלגות הממוצע עם מעט דגימות (כתום) ועם הרבה דגימות (כחול)
לצורך המחשה, נסתכל על הדוגמא הבאה: נניח שהתוכנית שלנו מנסה להוציא משפחות ממעגל העוני, ומדד האימפקט הוא הכנסה למשק בית.
על פני עשרה משקי הבית שהשתתפו במחקר, ההכנסות הן (באלפי שקלים לחודש): 10, 15, 18, 12, 16, 5, 4, 20, 5, 11
ההכנסה הממוצעת מבין משקי הבית שהשתתפו במחקר היא 11,600 שקלים לחודש, ושגיאת התקן היא בערך 1,800 שקלים לחודש. ממספרים אלו נוכל להעריך שההכנסה הממוצעת של משק בית שהשתתף בתוכנית היא, בסיכוי גבוה, איפשהו בין 8,000 ל-15,200 שקלים לחודש. שתי הקצוות של טווח ההערכה שלנו יחסית רחוקים אחד מהשני, אבל ככל שיהיו לנו יותר דגימות, שגיאת התקן תקטן ונוכל לקבל הערכה טובה יותר (טווח קטן יותר). לקריאה נוספת על הערכת כמות הדגימות הדרושה למדידה מדויקת של השפעה (על מנת להחליט מראש כמה נתונים צריך לאסוף למחקר), ניתן לקרוא את המאמר הזה.
שגיאה שיטתית (systematic error)
כפי שראינו, ישנם כלים סטטיסטיים פשוטים וסטנדרטים לטיפול בשגיאה אקראית. השגיאות הבעייתיות יותר להתמודדות יהיו לרוב שגיאות שיטתיות (systematic errors). בעוד שגיאה אקראית נוצרת כתוצאה מגורמים אקראיים, שגיאה שיטתית נוצרת כאשר הערכים שמדדנו שונים "באופן מהותי" מהערכים האמיתיים בקרב האוכלוסייה הכללית שמעניינת אותנו. כלומר, בנוכחות שגיאה שיטתית הערכים שמדדנו בכלל לא מייצגים את הערך האמיתי: גם אם נגדיל את המדגם ונחזור על המחקר באותו אופן שוב ושוב, נקבל את אותה הטייה. מסיבה זו הרבה יותר מאתגר להתמודד עם שגיאות שיטתיות.
הטיות יכולות לנבוע ממספר סיבות אפשריות, ביניהן:
-
הטיות מדידה, שגורמות לכך שאומדן המדד יהיה לא מדוייק.
-
גורמים מתערבים (confounders): האנשים בקבוצת ההתערבות ובקבוצת ההשוואה נלקחו מקבוצות "שונות איכותית" באופן שקשור למדד.
-
"נסיגה אל הממוצע": אנשים מגיעים לקבל מאיתנו סיוע כאשר הם במצב גרוע במיוחד, והמצב שלהם היה נוטה להשתפר בכל מקרה.
-
הטיית בחירה (selection bias): האנשים במחקר שלנו, הן בקבוצת ההתערבות והן בקבוצת ההשוואה, "שונים איכותית" מכלל האנשים בתוכנית.
הטיות מדידה
ייתכן שנעריך לא נכון את המדדים של המעורבים במחקר. סיבות אפשריות לכך כוללות הטיית זיכרון (בה נשאלים לא זוכרים היטב דברים בעבר עליהם הם נשאלים) והטיית ריצוי חברתי (בה נשאלים רוצים לבחור תשובה שתשמח את השואל או שתציג אותם באור חיובי). דיברנו על הטיות אלו בפרקים הקודמים ובמדריך השאלונים. לרוב, יהיה לנו קשה להעריך כמה משמעותיות ההטיות האלו במחקר שלנו מתוך הנתונים. מסיבה זו, נרצה לתכנן את המחקר (ואת השאלונים, במידה ורלוונטי) בצורה שבה הטיות משמעותיות כאלו פחות צפויות לצוץ.
גורמים מתערבים (confounders) ונתוני עזר (covariates)
לעתים, ישנם גורמים המשפיעים על השייכות של אנשים לקבוצת ההתערבות או קבוצת ההשוואה ובה בעת משפיעים על המדד שלנו. גורמים אלו נקראים "גורמים מתערבים" (confounders) והם עשויים לגרום לכך שההבדלים במדד בין שתי הקבוצות יהיו תוצאה של אותם גורמים, ולכן לא יהיה נכון בהכרח לייחס את השינויים במדד להתערבות. לדוגמא, אם אנחנו מעוניינים להשוות את שיעור האבטלה בקרב המשתתפים בתוכנית שלנו לשיעור האבטלה הכללי, מידת הרצון של אנשים למצוא עבודה יכולה להוות גורם מתערב. ייתכן מאוד שאנשים שמאוד רוצים למצוא עבודה נוטים יותר להשתתף בתוכנית שלנו (ובתוכניות אחרות שמבטיחות להם עזרה במציאת עבודה), ובה בעת הם מצליחים למצוא עבודה בשלל דרכים אחרות בלי קשר לתוכנית. במצב כזה, נוכל בטעות לייחס את שיעור האבטלה הנמוך בקבוצת ההתערבות לתוכנית שלנו, בעוד שההבדל נובע בסך הכל מכך שהאנשים בתוכנית מראש היו בעלי סיכוי גבוה יותר לצאת מאבטלה.
הדרך הטובה ביותר להימנע מהטיות השוואה הנגרמות מגורמים מתערבים היא ביצוע ניסוי מבוקר, בו קבוצת המחקר וקבוצת ההשוואה (ביקורת) נדגמים באקראי מתוך אותה קבוצה בדיוק, ולכן כל הבדל לא-אקראי בין הקבוצות לא ניתן לייחס לשום גורם אחר זולת ההתערבות עצמה. בהעדר יכולת לבצע ניסוי מבוקר, ישנם כלים סטטיסטיים שעוזרים לתקן הטיות שנוצרו מגורמים מתערבים. בשביל להיעזר בהם, יש לאסוף נתוני עזר (covariates), כלומר נתונים מדידים המעידים על הגורמים המתערבים. בעזרת נתוני העזר, נוכל לנסות לבודד ולנטרל (או לפחות לצמצם) את השפעת הגורמים המתערבים על המדד שלנו.
לדוגמא, מגדר הוא כמעט תמיד נתון עזר רלוונטי, משום שהבדלים בין גברים לנשים נפוצים מאוד. למשל, יכול להיות שלנשים מוטיבציה גבוהה יותר (בממוצע) לצאת מאבטלה, וכתוצאה מכך נשים יטו יותר להשתתף בתוכנית ולהצליח למצוא עבודה ללא קשר לתוכנית. במצב כזה, שיעור האבטלה הנמוך בתוכנית שלנו ישקף במידה מסוימת את שיעור הנשים הגבוה, ולא את אפקטיביות התוכנית. הפרדת המחקר בין גברים לנשים תוכל לנטרל את השפעת המגדר על האנליזה שלנו, וכתוצאה מכך להקטין (אך לא לנטרל לחלוטין) את השפעת המשתנה המתערב המהותי יותר (רצון למצוא עבודה). בדומה למגדר, משתני עזר שימושיים נוספים כוללים מאפיינים דמוגרפיים אחרים כגון גיל, מעמד סוציו-אקונומי (לפני ההשתתפות בתוכנית), מגזר (למשל יהודים/ערבים) ואזור מגורים.
הכלי הסטטיסטי הנפוץ ביותר לבידוד נתוני עזר במטרה לנטרל גורמים מתערבים נקרא רגרסיה (regression), שחשוב במיוחד להתחשבות במשתנים רציפים (כלומר משתנים שיכולים לקבל כל ערך מספרי על פני טווח מסויים) כגון גיל או הכנסה. כאשר מתחשבים במשתנים בדידים (כלומר בעלי כמות קטנה של ערכים אפשריים) כגון מגדר או מגזר, ניתן גם פשוט להפריד את האנליזה בין הקבוצות השונות הנקבעות על פי הערכים האפשריים של משתני העזר (למשל ביצוע האנליזה בקרב גברים ונשים בנפרד).
בנוסף לנטרול ההשפעה של גורמים מתערבים בהערכת האימפקט, התחשבות במשתני עזר מאפשרת גם לאתר תת-קבוצות בהן ההתערבות אפקטיבית יותר או פחות. למשל, נוכל לגלות שההתערבות אפקטיבית יותר בקרב צעירים מאשר מבוגרים. לקריאה מעמיקה יותר על ניתוח בעזרת רגרסיה, ניתן לקרואכתבה של EGAP על ניתוח משתני עזר.
נסיגה אל הממוצע
הטיה נפוצה מאוד במחקרי השוואה בין קבוצות שונות ללא חלוקה אקראית, ובעיקר במחקרי השוואה בין זמנים שונים, נקראת נסיגה אל הממוצע (regression toward the mean). על מנת להמחיש את התופעה, נניח שאנחנו מעוניינים לבחון את האפקטיביות של טיפול במשחת כורכום לצורך שחרור שרירים תפוסים בקרב ספורטאים (שמגיעים לקליניקה שמציעה את הטיפול). לצורך המחקר, ביצענו מעקב אחר חמישים ספורטאים שהגיעו לקליניקה עם שרירים תפוסים ומרחנו עליהם את המשחה, ותשאלנו כל ספורטאי על מידת הכאבים שהוא חווה בעת שהוא הגיע לקליניקה ובדיוק שבוע אחר כך.
לאחר ניתוח הנתונים הגענו למסקנה ברורה ומובהקת סטטיסטית – כשבוע לאחר הטיפול במשחת כורכום מצב הספורטאים הרבה יותר טוב, והשרירים שלהם הרבה פחות תפוסים. האם ניתן להסיק מכך שמצאנו את הטיפול האולטימטיבי לכאבי שרירים? ממש לא. ההסבר לממצאים שלנו הוא כנראה הרבה יותר פשוט: סביר שספורטאים מגיעים לטפל בכאבים כאשר המצב שלהם גרוע במיוחד, ושרירים תפוסים נוטים להשתחרר מעצמם כעבור כמה ימים בכל מקרה. כלומר, בסך הכל ראינו נסיגה של מצב הספורטאים מהמצב הקיצוני בו הם היו כשהם הגיעו לטיפול (שרירים מאוד תפוסים) למצב הנורמלי/ממוצע כעבור כמה זמן (שרירים הרבה פחות תפוסים).
לא תמיד קל כל כך לשים לב להשפעה אפשרית של נסיגה אל הממוצע, ולעתים קרובות היא די מוסוות. נניח למשל שהעמותה שלנו מסייעת לנשים למצות את כושר ההשתכרות שלהן, ומדדנו את העליה בשכר של נשים שהשתתתפו בתוכנית שלנו (נגיד 1,000 ש"ח בממוצע) והשוונו אותו לעליה בשכר של נשים שלא השתתפו בתוכנית (נגיד רק 500 ש"ח בממוצע). האם זה אומר שהצלחנו להכפיל את עליית השכר הממוצעת של משתתפות התוכנית? לא בהכרח.
כפי שציינו בתת-הפרק הקודם, ייתכנו הבדלים עקרוניים בין קבוצות הנשים שהשוונו שעשויים להסביר את ההבדל שמדדנו גם ללא השפעת התוכנית. בפרט, סוג מסוים של פער אפשרי בין הקבוצות הוא במידת ההשתכרות עצמה שגורם לכך שמשתתפות מגיעות לתוכנית במצב קיצוני במיוחד. יכול להיות למשל שנשים שמגיעות לתוכנית שלנו מראש מרגישות שהן משתכרות הרבה מתחת למה שהן ראויות, ושבגלל שהן מצויות במצב קיצוני במיוחד (שכר נמוך בהרבה מהפוטנציאל שלהן), רבות מתוכן היו מקבלות משכורת גבוהה יותר במשרה הבאה גם ללא עזרתנו.
על מנת לזהות את ההשפעה האפשרית של נסיגה אל הממוצע, כדאי לבדוק האם הערכים שמדדנו בנקודת הזמן הראשונה (אותם אנחנו מעוניינים להשוות לערכים שמדדנו בנקודת זמן מאוחרת יותר) הם קיצוניים ביחס לנורמה. לא תמיד ניתן לנטרל את ההשפעה האפשרית של נסיגה אל הממוצע, אבל חשוב להיות מודעים לאפשרות כשבאים לנתח את התוצאות.
הטיית בחירה (selection bias)
אם המדגם שבוצע לצורך המחקר (הן בקבוצת ההתערבות והן בקבוצת ההשוואה) "שונה איכותית" מכלל משתתפי התוכנית, הערכת האימפקט שלנו עשויה לשגות. אמנם נקבל הערכה טובה להשפעה הממוצעת של ההתערבות על משתתפי המחקר, אבל ההערכה הזאת לא תשקף היטב את האימפקט בקרב כלל משתתפי התוכנית. כתוצאה מכך, כשנכפיל את התוצאה בסדר הגודל של ההתערבות (למשל כמות האנשים הכוללת להם אנחנו מסייעים), נקבל תוצאה מוטה. אם למשל המחקר שלנו התמקד באוכלוסיה היהודית, בעוד התוכנית שלנו כוללת גם ערבים, לא יהיה זה נכון להניח שהאפקטיביות שהערכנו עבור יהודים תקפה גם לאוכלוסיה הערבית.
נוכל להיתקל בהטיה הזו אפילו אם נבצע ניסוי מבוקר (RCT), אם האנשים שגייסנו למחקר (שאחר כך חולקו באקראי לקבוצות התערבות וביקורת) הגיעו מאוכלוסיה שלא לחלוטין מייצגת את כלל האוכלוסיה עליה ההתערבות פועלת במציאות (אפילו אם האוכלוסיות חופפות במידה רבה).
אם לדוגמא פרסמנו את המחקר ברשתות החברתיות, יכול להיות שכתוצאה מכך גייסנו אנשים צעירים יותר בממוצע ביחס לכלל האוכלוסיה הרלוונטית לתוכנית שלנו. במצב כזה, משום שלאחר מכן החלוקה בין קבוצת ההתערבות לקבוצת הביקורת נבחרה באקראי, לא יהיה הבדל גילאים בין שתי הקבוצות, ולכן גיל המשתתפים לא יהווה גורם מתערב, אבל כן יהיה הבדל בין כלל משתתפי המחקר לאוכלוסיה הכללית של התוכנית, ולכן תיווצר הטיית בחירה.
הרבה יותר מורכב לנסות לתקן הטיית בחירה מאשר השפעת משתנים מתערבים, משום שאין לנו שום אומדן למדד שלנו על כלל משתתפי התכנית או על אנשים מאוכלוסיה דומה שלא לקחו חלק במחקר. אם יש ברשותנו נתוני עזר אודות משתתפי המחקר ושאר משתתפי התכנית (או האוכלוסיה הכללית), נוכל להשתמש בהם כדי לחפש הטיות בחירה. לדוגמא, נוכל להשוות את הגיל הממוצע של משתתפי המחקר לזה של כלל משתתפי התוכנית או האוכלוסיה הכללית (ובאופן דומה עבור שאר משתנים דמוגרפים ונתוני עזר אחרים), ובכך לזהות האם יש חשד להטיית בחירה במחקר שלנו.
נושאים נוספים בניתוח סטטיסטי
יש מספר נושאים נוספים שאנחנו ממליצים להכיר עבור ביצוע של ניתוח סטטיסטי:
-
ניקוי נתונים – איך לאתר ולהוציא מהניתוח נתונים שהוזנו בצורה שגויה/לא מלאה, באופן שקוף ואחראי סטטיסטית. על מילוי נתונים חסרים ניתן לקרוא עוד כאן.
-
עוצמה סטטיסטית, שמודדת את מידת הוודאות שלנו בתוצאות, ומשליכה על כמות ואופי הניתוחים שאנחנו יכולים לבצע על הנתונים תוך שמירה על רמת ודאות סבירה.
-
אפקט המגירה, בו ביצוע ניתוחים רבים ופרסום רק של תוצאות חיוביות גורם לריבוי תוצאות שגויות.
שלב ו': ניתוח עלויות
כזכור, האפקטיביות של התערבות מוגדרת על ידי כמות השפעה שהיא מייצרת עבור כל יחידת משאבים שמוקדשת לה, כאשר לרוב מדובר בעיקר בכסף. לדוגמא, אפקטיביות של התערבות למען האקלים יכולה להימדד בטונות של פחמן דו-חמצני באטמוספירה שההתערבות מונעת על כל שקל שהיא מנצלת. במילים אחרות, אפקטיביות היא היחס בין האימפקט של התוכנית לעלויות שלה. בפרקים הקודמים התמקדנו במונה של המשוואה הזאת, כלומר במדידת האימפקט, שהוא החלק העיקרי (והמורכב יותר) בביצוע הערכת אימפקט. בפרק הזה נתמקד במכנה, כלומר בהערכת העלויות הרלוונטיות של התוכנית. למרות שמדובר בניתוח הרבה יותר פשוט וקל לביצוע, עדיין יהיה זה קריטי לוודא שניתוח העלויות נעשה כמו שצריך. חשוב מאוד להימנע מטעויות נפוצות בניתוח עלויות שעלולות לערער את תקפות הניתוח שלנו.
סכימת ההוצאות הרלוונטיות
על מנת להעריך את העלויות של תוכנית, נדרש לסכום את כל ההוצאות המשמשות את התוכנית לצורך הפעלתה. רצוי לתעד את ההוצאות בצורה מסודרת, למשל בגיליון נתונים אלקטרוני (spreadsheet). לכל הפחות, כדאי לתעד את הסכום והמטרה של כל הוצאה. תיעוד מסודר ומפורט של ההוצאות יאפשר גם, מעבר להערכת האפקטיביות הנוכחית, מעקב שוטף אחר שינוי בהוצאות שונות ועדכון של הערכת העלויות בעתיד תוך מאמץ מינימלי.
אם ההתערבות היא חלק מפעילות של עמותה רשמית, בכל מקרה נדרש מאיתנו על פי חוק לפרסם אחת לשנה דוח מאזן כספי המפרט את ההכנסות וההוצאות השונות של העמותה. במצב בו ההתערבות שאנחנו מעריכים היא הפעילות היחידה של העמותה, אז התקציב הכולל של העמותה לרוב מהווה הערכה טובה של סך עלויות הפרויקט. אך כאשר אנחנו מעריכים רק התערבות מסוימת מתוך מספר פרויקטים שונים בעמותה, לרוב הדוח הכספי בלבד לא יאפשר לנו להפריד בין העלויות של הפרויקטים השונים ולבודד את עלויות הפרויקט שאנחנו מעוניינים להעריך, מפני שההוצאות לרוב מחולקות לפי קטגוריות (למשל משכורות לעומת תחזוקת מבנים) ולא לפי פרויקטים (למשל תוכנית חינוך לבני נוער לעומת תוכנית סיוע לניצולי שואה). יידרש מאיתנו אם כן יותר מאמץ על מנת לבודד ולסכום את כל העלויות של הפרויקט אותו אנחנו מעוניינים להעריך.
חשוב לקחת בחשבון את כל ההוצאות הרלוונטיות
כאשר מבצעים הערכת עלויות, יכול להיות מאוד מפתה לבחור בהגדרה מצומצמת של הוצאות הפרויקט, ועל ידי כך להעריך בחסר את העלויות (מה שיוביל להערכה ביתר את האפקטיביות של ההתערבות). אם למשל אנחנו מעריכים את העלויות של פרויקט חלוקת מזון לנזקקים, יכול להיות מפתה להתחשב רק בעלויות המזון עצמו. אלא שעלויות המזון עצמו מהוות רק חלק (אפילו אם זה החלק העיקרי) מסך העלויות של התוכנית, שכוללות גם משכורות, תחזוקת מבנים וציוד, עמלות, מיסים, פרסום וגיוס כספים.
הסיבה שחשוב לכלול גם תקורות והוצאות עקיפות, ולא רק הוצאות ישירות, היא שסך ההוצאות הכולל הוא שבסופו של דבר קובע את סכום הכסף שנדרש לגייס על מנת לתמוך בהתערבות. עבור עמותה, זהו סכום הכסף שהושקע מצד התורמים שלה על מנת לאפשר את הפעילות שאנחנו מעוניינים להעריך. אם בסוף תהליך המדידה נפרסם דוח אפקטיביות כלפי התורמים שלנו, חשוב לשמור על היושרה שלנו כלפיהם ולתת להם הערכה מדויקת של סכום הכסף שנדרש להשקיע על מנת לאפשר את האימפקט שמדדנו.
השאלה שאנחנו צריכים לשאול את עצמנו כאשר אנחנו באים להעריך את עלות הפרויקט היא זאת: עבור סדר הגודל של ההשפעה שהערכנו בשלבים הקודמים, מהם סך המשאבים שהוקדשו לצורך ההשפעה הזאת? על מנת לוודא שאנחנו לא שוכחים אף הוצאה רלוונטית ניתן לשאול את עצמנו – אם היינו מבצעים את אותו תהליך הערכת עלויות עבור כל הפרויקטים בארגון שלנו, האם היינו מסיימים עם הערכה מדויקת של סך התקציב שלנו? אם ישנו חלק נסתר בתקציב שלנו שלא נכלל בהערכה שלנו, סימן שלא כללנו את הכל. בעת חישוב המאזן, סך ההוצאות הכולל חייב להסתכם לסך ההכנסות הכולל (במידה וכוללים גם חסכונות וגרעונות בתקציב).
אם הפרויקט משתמש במקורות מימון עקיפים שאינם חלק מתקציב העמותה, כגון תרומה ייעודית או מענק חד-פעמי של גורם פרטי או ציבורי, חשוב לכלול גם אותם בחישוב העלויות (או לכל הפחות לדווח ולהתייחס אליהם בדוח שלנו).
משאבים לא כספיים
לרוב עיקר העלות של פרויקט נמדד בכסף, וזהו לרוב צוואר הבקבוק העיקרי להרחבה של ההתערבות. עם זאת, יכול להיות רלוונטי לתת את הדעת גם למשאבים מוגבלים אחרים המשמשים את התוכנית, כגון מתנדבים שעובדים ללא תשלום או תרומות שאינן כספיות (למשל מזון שנתרם לצורך חלוקה לנזקקים). חשוב להתייחס לאותם משאבים לא כספיים במיוחד כאשר הם עלולים להוות צוואר בקבוק להגדלה עתידית של התוכנית, למשל אם יש חשש שלא נצליח לגייס מספיק מתנדבים בעלי כישורים מתאימים, או אם לא ניתן יהיה ללקט מזון נוסף.
הבחירה לאילו משאבים אנחנו רוצים להתייחס בניתוח העלויות – האם רק לעלויות כספיות או גם משאבים אחרים – תלויה במידה רבה בשאלה עליה אנחנו מעוניינים לענות בדוח. אם המטרה שלנו היא רק לדווח לתורמים שלנו על האימפקט של התרומות הכספיות שלהם, יהיה הגיוני להתייחס רק לעלויות הכספיות של הפרויקט (אבל כדאי יהיה גם לנתח את הסקלביליות של התוכנית וצווארי הבקבוק האפשריים שלה ביחס למשאבים או מגבלות אחרות, כפי שמפורט בסוף המדריך). אם המטרה שלנו היא רחבה יותר, למשל לשכנע שההתערבות שלנו היא אפקטיבית במיוחד מנקודת המבט של החברה בכללותה, אז כדאי מאוד להתייחס גם למשאבים לא כספיים שההתערבות דורשת ולכלול אותם בחישוב העלויות.
תאימות במסגרת הזמן
חשוב שהערכת העלויות של התוכנית תהיה מסונכרנת ומתואמת עם הערכת האימפקט גם מבחינת תקופת הזמן עבורה ההערכה נעשית. אם למשל הערכנו את האימפקט הכולל של התוכנית בשנת 2020, חשוב שגם הערכת העלויות תתבצע עבור אותה שנה. אם חישבנו את האימפקט עבור שנה שלמה, חשוב שגם העלויות יחושבו עבור אותה יחידת זמן (ולא למשל עבור חודש בודד בלבד).
הוצאות חד-פעמיות, קבועות ומשתנות
למרות שזה לא נחוץ לצורך ניתוח עלות-תועלת כולל בעבר, יכול להיות מעניין להפריד את העלויות של התוכנית לשלוש קטגוריות:
הוצאות חד-פעמיות, כלומר עליוות שנדרשו רק פעם אחת לצורך ההפעלה של התוכנית ואינן נדרשות יותר בעתיד (למשל עלות שירותי משרד עורכי דין לצורך רישום העמותה).
הוצאות קבועות, כלומר עלויות שנדרשות באופן שוטף אך אינן תלויות בסדר הגודל של התוכנית (או תלויות בסדר הגודל רק במידה מועטה מאוד), כגון העלות השנתית של תשתיות המחשוב עבור אתר האינטרנט של העמותה.
הוצאות משתנות, כלומר עלויות שגדלות ביחס ישיר להיקף התוכנית (לרוב ביחס לינארי), למשל העלות של המזון שהעמותה מחלקת לנזקקים.
חלקן היחסי של הוצאות חד-פעמיות והוצאות קבועות יקטן ככל שהיקף הפעילות של הפרויקט יגדל, ולכן ההוצאות המשתנות הן לרוב אלה שמהוות את צוואר הבקבוק העיקרי, ומשום כך יכול להיות מעניין להפריד בין סוגי ההוצאות השונים, בעיקר אם נרצה להעריך את הסקלביליות של התוכנית. עם זאת נציין שבפועל החלוקה בין הוצאות קבועות ומשתנות היא לא תמיד ברורה וחלקה. למשל, האם המשכורות של המנהלים בארגון צפויות לגדול ביחס ישר לסדר הגודל של התוכנית?
מקורות לקריאה נוספת
שלב ז': ביצוע ההערכה הסופית וכתיבת דוח הערכת אימפקט
אחרי שניתחנו את האימפקט ואת עלויות התכנית, נרצה לחבר את התוצאות שלנו לכדי ניתוח עלות-תועלת ולכתוב דוח המסכם את תוצאות ומסקנות המחקר. בפרק זה נסביר על החלקים האחרונים בניתוח ובכתיבת הדוח.
דוגמאות
בתחילת המדריך נתנו מספר דוגמאות להערכות אימפקט בסטנדרט גבוה. אנחנו ממליצים להסתכל על דוגמאות מוצלחות של דוחות אימפקט גם בהקשר של הפרק הזה, על מנת לשאוב השראה ולקבל רעיונות. הדוחות המקיפים והטובים ביותר שאנחנו מכירים הם של GiveWell (ראו למשל את הדוחות שלהם על הפעילות של GiveDirectly ו-Against Malaria Foundation). כמו כן ניתן לשאוב השראה מהדוח שכתבנו על תוכנית אתגר 22 של עמותת אנימלס (קישור לדוח המלא).
שימו לב כיצד הדוחות מציגים את ההתערבות, מעריכים אותה ומפרטים על הראיות התומכות באפקטיביות, וכיצד הם מציגים ומתמודדים עם שאלות פתוחות וחוסר ודאות.
חישוב עלות-תועלת
הנתון שהכי מעניין אותנו בסוף התהליך הוא הקוסט-אפקטיביות (cost-effectiveness) של התוכנית, כלומר כמה ההתערבות משפרת את המדד שבחרנו למדוד על כל שקל שנכנס אליה. נוכל לחלק את הערכת האימפקט שלנו (משלב ה') בהערכת העלות שלנו (משלב ו') על מנת לקבל הערכה לקוסט-אפקטיביות של ההתערבות.
כדי לקבל ניתוח שמשקף בצורה טובה יותר את האימפקט של "השקל הבא שנכנס לעמותה", נוכל לעשות גם חישוב עלות-תועלת שיורית, כפי שניתן לקרוא בהמשך המדריך.
טיפול באי-ודאות
כפי שראינו לאורך המדריך, ישנם גורמים רבים שיכולים לגרום לאי-ודאות בהערכות שלנו, אותם נרצה לשקף בצורה ישרה ושקופה בדוח שלנו. מקרה פשוט יחסית הוא אי-ודאות סטטיסטית שנוצרת מגודל מדגם מוגבל, אשר כתוצאה ממנו מוטב לנו להשתמש בטווח ביטחון להערכת המדד שלנו (כפי שהסברנו בטיפול בשגיאה אקראית בפרק ה'). כאשר יש גורמים או הטיות שאין לנו דרך להעריך את ההשפעה שלהם באופן מבוסס נתונים, ישנן מספר גישות לטיפול באי-הודאות שנוצרת.
שימוש בהערכות סובייקטיביות
גישה אחת לטיפול באי-ודאות היא שימוש בהערכות סובייקטיביות (רצוי שמרניות). לצורך הדגמה, נניח שחקרנו את הפחתת צריכת החשמל של אנשים שנחשפו לקמפיין סביבתי והערכנו שהמשפחה של משתתף ממוצע הפחיתה את צריכת החשמל הביתית ב-150 קילוואט שעה בממוצע. יכול להיות שהמחקר שלנו התמקד רק בעיר אחת (נגיד תל-אביב) בעוד הקמפיין עצמו רץ בכשלושים ערים שונות הפזורות ברחבי הארץ. זהו מקרה קלאסי של הטיית בחירה (כפי שתיארנו בפרק ה').
אפשרות אחת להתמודדות עם ההטיה היא לנסות להעריך את מידת אי-הוודאות ולתת טווח הערכה סובייקטיבי לאפקט הכללי בכל הארץ, תוך שימוש בגודל האפקט שמדדנו בתל-אביב (150 קוט"ש) כנקודת עוגן. נוכל למשל להעריך שלא נראה לנו לנו סביר שהאפקט בתל אביב הוא יותר מפי שלושה מאשר בכלל הארץ, ולכן גודל האפקט הוא לכל הפחות 50 קוט"ש, ונשתמש בטווח 50-150 קוט"ש להערכה הסופית שלנו.
גם כאשר נאלצים לבצע הערכות גסות מבוססות אינטואיציה, רצוי בכל זאת לעגן את ההערכות שלנו בנתונים כלשהם, אפילו כאשר מדובר בנתונים עקיפים בלבד שלא מספקים ראייה מוצקה להערכות שלנו. בדוגמא שלנו, אם אנחנו נאלצים להעריך את ההשפעה של האפקט הארצי מתוך האפקט שמדדנו בתל-אביב, נתון רלוונטי יכול להיות הוצאה כספית ממוצעת של משפחות באזורים הגיאוגרפים השונים (תחת ההנחה שצריכת החשמל של משפחות והפתיחות שלהן לשינוי הרגלים עשויים להיות בקורלציה לרמת ההוצאה הכללית שלהן). מתוך שימוש בנתונים פומביים, נוכל לגלות שמשק בית ממוצע בתל-אביב מוציא רק כ-15% יותר מאשר הממוצע הארצי, ולכן יחס של 1:3 עשוי להיות שמרני מדי (אם כי עדיף להיות שמרניים מאשר אופטימיים מידי בביצוע הערכת אימפקט).
אם נשתמש בטווחי הערכה לנתונים שונים במחקר שלנו, נצטרך בסוף התהליך לשקלל את כל הטווחים לכדי חישוב האפקטיביות הכוללת של התוכנית. דרך אחת לעשות את זה היא פשוט לקחת את ההערכה הפסימית ביותר בכל אחד מהטווחים שמעורבים בחישוב (ואולי גם את כל ההערכות האופטימיות ביותר).
אם למשל הערכנו שהפחתת צריכת החשמל של משפחה ממוצעת היא 50-150 קוט"ש, וכתוצאה מאי-ודאויות נוספות הערכנו שכמות המשפחות המושפעות מהקמפיינים שלנו היא איפשהו בין 1,500 ל-10,000 משפחות, וכן שהעלות הכוללת של הפרויקט היא בין 4 ל-5 מיליון ש"ח עבור אותה תקופה, אז ההערכות הפסימיות ביותר הן 50 קוט"ש למשפחה ממוצעת כפול 1,500 משפחות חלקי 5 מיליון ש"ח (עלות מקסימלית), כלומר הפחתה כוללת של 0.015 קוט"ש עבור כל שקל. לעומת זאת, ההערכה האופטימית ביותר תהיה 150 קוט"ש כפול 10,000 משפחות חלקי 4 מיליון ש"ח, כלומר 0.375 קוט"ש לכל שקל.
טכניקה מתוחכמת יותר לטיפול במספר רב של אי-ודאויות שונות היא שימוש בכלי אוטומטי שיכול לשקלל את סך אי-הודאויות השונות לכדי התפלגות סופית (תחת ההנחה, הלא תמיד סבירה, שטווחי ההערכה שלנו בלתי-תלויים אחד בשני). דוגמא לכלי כזה היא Guesstimate. למרות שמדובר בכלי שימושי ויחסית פשוט לשימוש, חשוב לזכור שהשימוש בכלים סטטיסטיים מתוחכמים הוא לא תחליף לתכנון וביצוע מחקר קפדני, איסוף של נתונים, וביקורתיות בריאה (אחרת יש בהחלט סכנה למצב של garbage in, garbage out).
חשוב גם להיזהר משימוש עודף בטכניקה של הערכות סובייקטיביות גסות. אמנם לכאורה ניתן לעטוף כל אי-ודאות בהערכת טווח ביטחון, אבל אם נעשה זאת יתר על המידה נסיים עם מחקר שהתוצאות הסופיות שלו לא עדיפות בהרבה על תחושת בטן (הרי יכולנו לחסוך את כל המחקר ולקבוע שנראה לנו שההתערבות שלנו מאוד אפקטיבית). הבעיה היסודית היא שקשה מאוד לתת הערכות טובות ללא עוגנים טובים מבוססי נתונים, ומחקרים בנושא מראים שגם כאשר אנשים מנסים להיות שמרניים בהערכות שלהם, בפועל הם בדרך כלל עדיין מאוד אופטימיים.
הבעיה מחריפה כאשר אנחנו מנסים להעריך משהו שאנחנו מושקעים בו רגשית (כמו האפקטיביות של התוכנית החברתית שלנו). מסיבה זאת, לרוב יש יתרון משמעותי לכך שמחקר הערכת האימפקט יכלול גם גורמים מקצועיים ניטרליים (מחוץ לצוות התוכנית החברתית) שמנסים להעריך את האימפקט של ההתערבות. כמובן שהדרך הטובה ביותר להימנע משימוש בהערכות סובייקטיביות היא פשוט לתכנן את המחקר טוב יותר מלכתחילה. אם למשל היינו מבצעים את המחקר של הפחתת צריכת החשמל על מדגם מייצג מכל הארץ, ולא רק על תושבי תל-אביב, היינו מראש מקבלים הערכה מדויקת יותר של גודל האפקט הכולל.
חסם תחתון
גישה אחרת לטיפול בחוסר ודאות היא שימוש בחסמים תחתונים לאימפקט. לדוגמא, יכול להיות שלצורך הערכת הפחתת צריכת החשמל של משתתפים בתוכנית ביצענו מעקב אחר המשתתפים לאורך שנתיים. במצב כזה, אולי נדע לומר שיש אפקט יציב בהפחתת צריכת החשמל לאורך השנתיים הראשונות, אך לא יהיו לנו נתונים חד-משמעיים אודות שינויים בצריכת החשמל לאורך טווח ארוך יותר. במקום שימוש בהערכה סובייקטיבית (בסופה נוכל לקבוע למשל שאנחנו מעריכים שהאפקט נמשך בין 5 ל-20 שנה), נוכל פשוט להחליט שאנחנו לוקחים בחשבון רק את האפקט שיכולנו להוכיח (במשך שנתיים) ומניחים באופן שמרני שזה כל האפקט שהשגנו, כלומר שמים חסם תחתון של שנתיים על משך האפקט הנמדד.
ציון אי-הודאות בדו"ח
אפשרות אחרת להתמודד עם אי-ודאות היא פשוט לציין אותה בדו"ח ולא לעשות איתה כלום (מלבד להזהיר את הקוראים בקיום של המגבלה של המחקר). אם לדוגמא הערכנו את הפחתת צריכת החשמל של משתתפים בתוכנית שלנו באמצעות מחקר תצפיתי ללא קבוצת השוואה חיצונית, במהלכו השוונו את צריכת החשמל לפני החשיפה לקמפיין לזו של אחרי החשיפה, ללא שימוש בקבוצת ביקורת כלשהי או השמה אקראית, ייתכן מאוד שההפרש בצריכת החשמל שמדדנו נובע מגורמים שאינם סיבתיים (כפי שפירטנו במספר מקומות לאורך המדריך). במצב כזה, נוכל פשוט להכיר במגבלה המשמעותית במחקר שביצענו ולהציג אותה באופן כן ושקוף בדוח.
גם אם החלטנו לטפל באי-ודאות בדרך אחרת שמשאירה מקום לספק (במיוחד אם השתמשנו בהערכות סובייקטיביות), חשוב עדיין לציין את אי-הודאות בדוח הסופי. רצוי אפילו להקדיש פרק מיוחד בדוח בו מציגים בצורה שקופה ודנים בהשפעות האפשריות של כל מגבלות המחקר (ראו לדוגמא את פרק 8 בדוח הערכת אימפקט שכתבנו על תוכנית אתגר 22 של עמותת אנימלס).
בעיית ההכללה
אחרי שהצלחנו לזהות ולנטרל או לחסום את השגיאות השונות שעשויות לצוץ בניתוח נקבל הערכה להשפעת ההתערבות במתכונת הנוכחית שלה. אם התוצאות יהיו חיוביות מספיק, ייתכן שנשתמש בהן כדי להצדיק הרחבה של ההתערבות או הפעלה שלה על אוכלוסיה שונה. עם זאת, שינוי היקף התוכנית או האוכלוסיה שהיא משרתת עלול לפגוע ברלוונטיות של תוצאות המחקר. אם ההתערבות שלנו פעלה טוב באוכלוסיה המקורית, היא לאו דווקא תפעל בצורה דומה באוכלוסיה החדשה. לדוגמא, אם ההתערבות שלנו מספקת חניכה לימודית לנערים ונערות שמתקשים בלימודים בעיר מסוימת, כשנעבור לעיר אחרת עם משפחות במצב סוציו-אקונומי אחר, אולי נגלה שההשפעה תרד (למשל, כי רוב הנערים שמוכנים להתמיד עם חונך כבר בכל מקרה מקבלים שיעורים פרטיים).
בניגוד לשגיאות והטיות שעשויות לצוץ במחקר, במקרה הזה אין כלים מתמטיים שבעזרתם נוכל לזהות או לתקן את הבעיה. למרות זאת, לא נרצה להתעלם מהמחקר, ונוכל לנסות להבין את השפעת התכנית בסביבה שונה בעזרת הבנה של המנגנונים שבזכותם מושג השינוי. הבנת מנגנונים חברתיים זה תחום מורכב שראוי למדריך נפרד, ותחושות בטן במקרים רבים יוכלו להוביל אותנו להאמין שההתערבות שלנו פועלת בהקשר כללי בהרבה מזה שבו היא נבדקה. ניתוח מנגנונים טוב אמור להסתמך על נתונים אמפיריים, בעזרתם ניתן לבודד את הגורמים שיצרו את ההשפעה וחיפוש הגורמים האלו בסביבות שונות.
נרצה לציין בדוח המחקר את הסביבה בה המחקר בוצע ובה אנחנו מאמינים שהערכת האימפקט תקפה. אם יש לנו סיבות טובות להאמין שניתן להכליל את התוצאות לסביבות שונות נרצה לנמק זאת. בכל מקרה, נזהר לא להסיק שהאימפקט של התערבות יהיה זהה בסביבות שלא נבדקו.
ניתן לקרוא עוד על בעיית ההכללה במאמרים נרחבים של SSIR ושל EGAP על הנושא.
כתיבת הדוח
אחרי שניתחנו את הנתונים וגיבשנו הערכה לאימפקט של ההתערבות, נרצה לכתוב דוח מחקר מפורט שמציג את מסקנות ההערכה ואת הדרך בה הגענו אליהן, כדי שנוכל לפרסם את המחקר. נפרט בדוח על הנושאים הבאים:
תיאור ההתערבות: נפתח בתיאור מפורט של ההתערבות. מה היא מנסה להשיג, מי העמותה או הגורמים שמפעילים אותה, כמה זמן התוכנית כבר רצה, מהו היקף הפעילות, וקישורים למקורות רלוונטים נוספים עליה (אתר העמותה, מחקרים רלוונטיים אחרים, וכו').
המדדים ושיטת המדידה: נפרט על המדדים שבחרנו בשלב ג', למה בחרנו במדדים אלו, ואיך מדדנו אותם. במקרה שהשתמשנו בשיטת מדידה נפוצה (לדוגמא, שאלונים מוכרים מהתחום) נוכל לקשר אל מקורות חיצוניים על השיטה. אחרת, נפרט על שיטת המדידה שבחרנו.
מבנה המחקר: נתאר את מבנה המחקר שגיבשנו בשלב ג', ובפרט כיצד בחרנו את קבוצת ההתערבות ואת קבוצת ההשוואה. במקרה שביצענו ניסוי אקראי מבוקר, נפרט על הצורה בה גיבשנו את מאגר משתתפי המחקר ואיך הגרלנו מביניהם את שתי הקבוצות. במקרה שביצענו ניסוי השוואה לקבוצה דומה (case-control), נפרט מאיפה לקחנו את מאגר האנשים אליהם השוונו ואיך דאגנו שהם יהיו מייצגים לקבוצת ההתערבות (ואילו הבדלים מהותיים עדיין עשויים להיות ביניהם).
הערכת האימפקט: נציג את תוצאות ההערכה שלנו. על כל שקל שנכנס לעמותה, איזה שינוי אנחנו מאמינים שמושג במדד (ומהו טווח אי-הוודאות). נתאר את המגבלות ואי-הודאויות שיש להערכה, כולל הנחות שהסתמכנו עליהן ולא נוכל לאשש ישירות או הטיות שלא יכולנו לחסום את ההשפעה האפשרית שלהן. חשוב להיות כנים ולא להציג מסקנות שחורגות ממה שהמחקר שעשינו באמת מסוגל להוכיח.
ניתוח הנתונים: נפרט את הדרך בה הגענו להערכת האימפקט. נתאר בפירוט את הכלים הסטטיסטים בהם השתמשנו, ברמה שתאפשר לקוראים לשחזר את תוצאות המחקר מנתונים דומים, ונתאר את ההטיות והמגבלות שעשויות היו לצוץ בניתוח וכיצד התמודדנו איתן. לדוגמא, נציג את כמות משתתפי המחקר ואת החלק מתוכם שלא הצלחנו לאסוף מהם מידע (לדוגמא, כי הם לא ענו לסקר), ונתאר את ההשפעה האפשרית שיכולה להיות לחוסר ההיענות על תוצאות המחקר שלנו. מקובל לציין גם ניתוחים שביצענו ובסוף לא הסתמכנו עליהם (על מנת להימנע מאפקט המגירה). אם השתמשנו במדידות או מחקרים קיימים, נקשר גם אליהם.
עלויות: נפרט על עלויות התוכנית וכיצד מדדנו אותן.
הקשר: נתאר את הקונטקסט בו בוצעו ההתערבות והמחקר, והקונטקסט בו אנחנו מאמינים שהתוצאות תקפות (ולמה אנחנו סבורים כך). לדוגמא, אם ההתערבות מספקת חניכה לימודית לתלמידי תיכון בפתח תקווה עם קשיים בלימודים, ייתכן שנאמין שההתערבות אמורה לעבוד בצורה דומה ולהשיג אימפקט דומה עבור תלמידי תיכון בכל גוש דן, אבל לא מחוץ לגוש דן או לתלמידי חטיבה. חשוב לא לטעון שההתערבות אפקטיבית בקונטקסט רחב יותר ממה שאנחנו באמת יודעים להגיד.
מסקנות: אילו מסקנות חשובות ניתן להסיק מהמחקר? למשל, כיצד המחקר סייע לנו להחליט האם התוכנית שלנו אפקטיבית או בעלת פוטנציאל לאימפקט? או לחילופין, האם נראה שהתוכנית לא אפקטיבית כמו שקיווינו ונראה שצריך להחליף כיוון? האם, בעקבות המחקר, נרצה לערוך שינויים בתוכנית? האם איתרנו צווארי בקבוק או בעיות אחרות שצריך לתקן? אם ערכנו מחקר השוואתי בין תוכניות שונות (או בין וריאציות של אותה תוכנית), האם תוצאות המחקר מאפשרות לנו להחליט איזו תוכנית מבטיחה יותר?
הנתונים הגולמיים: ככל שהדבר אפשרי (למשל מבחינת שמירה על פרטיות של משתתפי המחקר והמוטבים של התוכנית), חשוב להציג את הנתונים הגולמיים שאספנו והסתמכנו עליהם במחקר. במידת הצורך ניתן לבצע אנונימיזציה של הנתונים. לקריאה נוספת על פרסום נתונים, ניתן לעיין במדריך של JPAL.
הרחבות וטיפים נוספים
עלות-תועלת שיורית ומקום למימון נוסף
נקודה שחשוב לשים לב אליה, היא שלרוב יש הבדל משמעותי בין האפקטיביות הממוצעת של ההתערבות בעבר לבין האפקטיביות העתידית לה ניתן לצפות, בפרט מנקודת המבט של התועלת הצפויה ממימון נוסף (כפי שציינו בהקדמה). לדוגמא, לעתים קרובות התחלה של תוכנית חדשה כוללת עלויות חד-פעמיות שלא נצטרך לשלם שוב כדי להרחיב אותה, לפחות באותה מידה (כפי שפרטנו בפרק ו'). מצד שני, לעתים קרובות התועלת השולית דווקא פוחתת, למשל משום שהתוכנית כבר מסייעת לכל האנשים שזקוקים לה במידה המרבית או שהכי קל להגיע אליהם, והרחבתה תדרוש סיוע לאנשים שכנראה ירוויחו ממנה פחות (או שיעלה יותר להגיע אליהם).
משום כך, אם נוכל נרצה להסתכל, בנוסף לעלות-התועלת של ההתערבות בעבר (המוגדרת על ידי היחס בין האימפקט לעלויות התוכנית עד כה), גם על עלות-התועלת השיורית (המוגדרת על ידי היחס בין האימפקט השיורי של הרחבת ההתערבות לעלות השיורית של ההרחבה). הבעיה היא שהאימפקט והעלות השיורית של הרחבת התוכנית הם נתונים שמתייחסים לעתיד ולא לעבר, ולכן עקרונית הם בלתי ניתנים למדידה. עם זאת, אם ננסה למדוד את ההעלות והאימפקט של ההתערבות בתקופה יחסית קצרה ומאוחרת (נגיד רק בשנה האחרונה), סביר שנקבל הערכה סבירה גם לעלות-התועלת של התוכנית בעתיד הקרוב (נגיד בשנה הבאה).
נקודה חשובה במיוחד בהקשר הזה היא הפוטנציאל הקיים למימון נוסף (room for more funding) וצווארי הבקבוק שנתקל בהם במידה וננסה להרחיב במידה משמעותית את התוכנית. נרצה לשאול את עצמנו – בכמה אנחנו מאמינים שניתן להגדיל את התוכנית מבחינת מימון והיקף פעילות? (פי 1.5? 10? 100…?) באיזה שלב סביר שהערכות האפקטיביות שחקרנו כבר לא יהיו תקפות?
על מנת לקבל על כך מושג, נרצה לענות על השאלות הבאות:
מה התוכנית תעשה עם מימון נוסף (ו/או משאבים אחרים)? כיצד המשאבים הנוספים אמורים להיות מתורגמים להרחבה של התוכנית? עד כמה ודאי שזה יקרה?
מהם צווארי הבקבוק של התוכנית? מהם הגורמים בהם אנחנו תלויים שעשויים לאזול בשלב מסוים? (למשל מתנדבים, עובדים עם הכשרה מתאימה, תרומות לא כספיות, תמיכה ממשלתית, שטח פעילות או אחסון, עיריות שמוכנות לשתף איתנו פעולה, או אנשים שניתן לעזור או להשפיע עליהם).
האם המדידות והערכות שביצענו יהיו תקפים תחת היקף גדול בהרבה של התוכנית? אילו הנחות עשויות לאבד תוקף? (לדוגמא, האם המדגם שחקרנו עדיין יהיה מייצג אם התוכנית תגדל פי 10?)
ככל שהדבר אפשרי, נרצה לציין הערכה לכמות המימון הנוסף שאנחנו מאמינים שהתוכנית מסוגלת לקלוט ועדיין לשמור על האפקטיביות הקיימת בוודאות גבוהה (למשל, שהתוכנית מסוגלת לקלוט עוד 300,000 ש"ח ולהשתמש בהם באופן כמעט זהה למימון עד כה). ניתן לקרוא עוד על פוטנציאל למימון נוסף בפוסט הזה של GiveWell.
מיפוי השפעות מורכבות
לעתים, להתערבות יהיו השפעות נוספות מעבר להשפעות הישירות שלה (בהן לרוב מתמקדים במחקר אימפקט). בפרט, בתת-פרק זה נדון בהשפעה צדדית לא מתוכננת (spillover effect) ובהשפעות ארוכות טווח.
בכל מקרה כדאי לנסות לחשוב מה עשויות להיות השלכות משמעותיות נוספות של ההתערבות, אבל לרוב מומלץ לעשות מחקר מקיף של השאלה ולאסוף נתונים רלוונטיים רק אחרי שביצענו כבר מחקר ראשוני על ההשפעות הישירות של ההתערבות וקיבלנו אינדיקציות חיוביות לאפקטיביות שלה.
השפעה צדדית לא מתוכננת
לעיתים קרובות, להתערבות תהיה השפעה לא רק על האנשים אליהם היא מכוונת, אלא גם על אנשים בסביבתם. לכן, אם נתמקד רק בקבוצה הראשונה, אנו עשויים לקבל הערכה לא טובה להשפעה הכוללת של ההתערבות. לעיתים האפקט הלא-ישיר יהיה חיובי, ולעתים שלילי.
דוגמא אינטואיטיבית לאפקט עקיף חיובי היא תוכנית שמאתרת ומטפלת בחולים במחלה מדבקת באזור מסוים, כאשר ההקטנה בתחלואה באותם אזורים עשויה להקטין גם את התחלואה באזורים שכנים (שכעת יידבקו פחות מאותו אזור שטיפלנו בו). דוגמא נגדית, בה האפקט העקיף דווקא שלילי, יכולה לקרות בהתערבות שמספקת תמיכה כלכלית למשפחות נבחרות ומביאה לעליה משמעותית ברמת החיים שלהן, אך עשויה לגרום לירידה ברווחה הנפשית של משפחות סביבן (לקריאה נוספת).
להשפעה כזו קוראים השפעה צדדית (spillover effect). ניסיון למדוד השפעות צדדיות יכול לאפשר הערכה טובה יותר של האימפקט הכולל של התערבות. ניתן לקרוא עוד על השפעות צדדיות וכיצד ניתן למדוד אותן בפוסט הזה.
השפעות ארוכות טווח
ייתכן שרוב ההשפעה של תוכנית תבוא לידי ביטוי רק זמן רב לאחר ההתערבות. אם למשל הצלחנו לשכנע אדם לעבור לתזונה צמחונית למשך שארית חייו, רוב התועלת הצפויה מכך (חיסכון בחיי בעלי-חיים) צפויה לקרות לאורך הרבה זמן (כל עוד הוא חי ונמנע מאכילת מזון מן החי). מצד שני, לפעמים, בניגוד לאינטואיציה הרווחת, ההשפעות שקיווינו להן מחזיקות רק זמן יחסית מועט ולא מחלחלות אל העתיד הרחוק. היעדר השפעות ארוכות טווח היא תופעה נפוצה בהרבה התערבויות, לדוגמא – התערבות שמנסה לעודד התפתחות נוירולוגית בגיל הרך ע"י הדרכת הורים ומתן משחקים מתאימים, שלמרות מחקרים מקדימים אופטימים, התגלתה כחסרת כל השפעה מדידה בטווח הארוך.
משום כך, הסתכלות ארוכת טווח על ההשפעה של התערבות יכולה לתת תמונה שונה מאוד מזו שמתקבלת בטווח הקצר. למרבה הצער, מחקרים ארוכי טווח קשים מאוד לביצוע; זוהי בעיית מדידה שקשה מאוד לעקוף. ניתן לקרוא עוד על האתגרים בהערכת אימפקט ארוך טווח בפוסט הזה.
הפרדה לפי אזורים, אוכלוסיות או גורמים אחרים
יכול להיות שהתוכנית שלנו פועלת במוקדים שונים ברחבי הארץ (או בעולם), או שהיא מסייעת לאוכלוסיות שונות (לדוגמא גברים חרדים לעומת נשים ערביות), או שהיא מחולקת לתת-יחידות ארגוניות שמתנהלות בצורה שונה או על ידי אנשים אחרים. בכל המקרים הללו, מאוד סביר שיש בתוכנית מקומות בהם היא מתפקדת טוב יותר ומשיגה יותר אימפקט, והיינו רוצים לזהות את זה ולנסות ללמוד מהמקומות היותר מוצלחים איך ניתן לשפר את המקומות הפחות מוצלחים (או אפילו להחליט להרחיב את התוכנית במקרים שהיא אפקטיבית יותר על חשבון המקומות הפחות אפקטיביים).
משום כך, אם הדבר אפשרי מבחינת כמות הנתונים שניתן לאסוף ועלויות המחקר, כדאי לנסות לחשב את האפקטיביות של התוכנית בנפרד עבור כל הפרדה שנראית לנו רלוונטית (בנוסף לחישוב הכללי). לשם כך, נדרש לאסוף נתונים נפרדים גם מבחינת השפעת התוכנית וגם מבחינת העלויות שלה. כאשר אנחנו מתכננים את המחקר ואוספים את הנתונים (בשלבים ג'-ד'), נרצה לאסוף נתונים שנראים לנו רלוונטיים מבחינת הפרדות שניתן לערוך בתוכנית וניתן לצפות מהן לאפקטיביות שונה, גם אם בסופו של דבר נחליט לא להשתמש בנתונים האלה (בשלבים ה'-ז'). זוהי סיבה נוספת לאסוף נתונים דמוגרפים על משתתפי התוכנית (בנוסף לצורך להשתמש בהם כנתוני עזר באנליזה הכללית). וזוהי גם סיבה טובה לתעד, עבור כל דגימה, לאיזה תת-יחידה ארגונית היא משתייכת או מיהם הגורמים האנושיים שאמונים עליה (לדגומא, עבור כל חניך, מי המתנדב שחונך אותו).
מעטפת אקדמית
אם ערכתם מחקר אימפקט מקיף, אנו ממליצים לשקול לפרסם אותו כמחקר אקדמי. זה מוסיף למוניטין המחקר ומגדיל את החשיפה הפוטנציאלית שלו, וכן יכול לסייע לעמותות או ארגונים אחרים. כדי לעשות זאת, צריך לעקוב אחרי מספר פרקטיקות פרסום שנהוגות באקדמיה. למעשה, אנחנו ממליצים לנקוט בפרקטיקות הללו גם אם אתם לא מעוניינים לפרסם את מחקר האימפקט בפורום אקדמי. למידע וטיפים נוספים על הדברים שמומלץ לעשות לקראת פרסום הערכת אימפקט כמחקר אקדמי, ניתן לקרוא את הפוסט הבא של JPAL.
פרקטיקות פרסום לפני המחקר
רישום ניסוי: מומלץ לפרסם את תוכנית המחקר המלאה (כולל מטרת המחקר ומבנהו) לפני איסוף הנתונים ותחילת ביצוע המחקר בפועל. זוהי פרקטיקה הלקוחה מעולם המחקרים הקליניים ונכנסת בהדרגה למחקרים במדעי החברה. רישומי ניסויים עוזרים לחוקרים להבין את עומק אפקט המגירה בתחום, כלומר איזה מחקרים מתבצעים, ולא רק איזה מחקרים מפורסמים, כפי שהסברנו בפרק ה'. למידע נוסף על רישום מחקרי אימפקט, ניתן לקרוא פוסט של JPAL בנושא.
תוכנית ניתוח מקדימה: כחלק מרישום הניסוי, מומלץ לפרסם את האופן בו אנחנו מתכננים לנתח את הנתונים שנאסוף. מטרת פרסום תוכנית הניתוח היא להקטין את הסיכון למציאת תופעות כוזבות ע"י ניתוח יתר של המידע. זהו אספקט נוסף של אפקט המגירה, הנובע מכך שניתן לבצע הרבה מאוד ניתוחים שונים לאותו אוסף נתונים, עד שבסוף "נגלה" באחד הניתוחים אפקט חריג (שלמעשה נובע מגורמים אקראיים). פרסום תוכנית ניתוח מקדימה מעלה מאוד את האמינות של המחקר בקרב חוקרים אחרים. מומלץ לעשות זאת לפני איסוף הנתונים (או לכל המאוחר לפני ניתוח הנתונים). למידע נוסף על תוכניות ניתוח מקדימות ניתן לקרוא את הפוסטים של EGAP ושל JPAL בנושא.
פרקטיקות פרסום אחרי המחקר
לאחר המחקר, נרצה לפרסם לצד הדו"ח את הנתונים שאספנו ואת קוד המחשב בו השתמשנו לניתוח הנתונים. למען שקיפות המחקר, נרצה לפרסם את כל פרקטיקות ניקוי הנתונים בהם השתמשנו, ואת הניתוחים הנוספים שבדקנו, גם אם בסוף לא השתמשנו בתוצאותיהם. את הנתונים שנפרסם נרצה קודם להפוך לאנונימיים במידה הרבה ביותר האפשרית לפני הניתוח. לדוגמא, אם אספנו את הנתונים בעזרת סקרים, ובסקר שאלנו מה שם המשתתף המלא (כדי לוודא שאספנו נתונים מכל מי שרצינו ולמנוע כפילויות), נרצה לרשום שזה מה שעשינו בשלב ניקוי הנתונים, אבל לא לכלול את השמות בפרסום. נרצה לדווח מראש למשתתפי המחקר על כל מידע לא-אגרגטיבי (ספציפי לאדם) שנרצה לפרסם, ובמקרה שבו נצטרך אישור חתום לשימוש בנתונים האלו, נבקש את האישור הזה. ניתן לקרוא עוד על פרסום נתוני המחקר בפוסט הזה של JPAL.
פרסום המחקר
אחרי שנכתוב את דו"ח מוכן לפרסום כמחקר אקדמי, נצטרך לבחור לאיזה ז'ורנל נשלח אותו. לז'ורנלים שונים יש מוניטין שונה ודרישות שונות מהמחקרים שמפורסמים בהם. אנו ממליצים להתייעץ לגבי בחירת הז'ורנל בחוקר מהתחום האקדמי הרלוונטי.
במי אפשר להעזר?
לאורך המדריך ניסינו להציג את מכלול השיקולים הרלוונטיים המעורבים במחקר אימפקט של התערבויות חברתיות למען הזולת, כך שמי שקרא את המדריך יוכל לקחת חלק פעיל במחקר מסוג זה. כמו כן, ניסינו לספק קישורים לחומרים חיצוניים רלוונטיים על מנת שאותם קוראים שמעוניינים להעמיק בנושא יוכלו להגיע לרמה מקצועית שתאפשר להם לערוך מחקרי אימפקט בכוחות עצמם. עם זאת, אנחנו בהחלט מודעים לכך שמדובר במשימה לא פשוטה שדורשת מידה מסוימת של מיומנות מקצועית. אם החלטתם שאתם מעוניינים לערוך מחקר אימפקט, אנחנו ממליצים לשקול להיעזר בגורמים מקצועיים, שבנוסף לכישורים ומיומנות מחקרית יוכלו לספק גם פרספקטיבה חיצונית ואובייקטיבית יותר.
הנה כמה רעיונות לגורמים שאתם יכולים להתייעץ איתם (כמובן שלא מדובר ברשימה מקיפה של כל מי שפועלים באזורים של אימפקט חברתי):
קודם כל, אתם יותר ממוזמנים ליצור קשר איתנו, אלטרואיזם אפקטיבי ישראל. אנחנו פועלים בהתנדבות ונשמח לעזור לכם. לקבלת ייעוץ בעניין הערכת האפקטיביות של התוכנית או המיזם החברתי שלכם, או בכל עניין אחר שנוגע לעזרה לזולת באופן מכוון אימפקט, אתם מוזמנים למלא את טופס הפניה הבא.
חברת ERI מספקת ייעוץ וסיוע במחקר אימפקט (בתשלום).
ניתן גם לנסות ליצור קשר עם CEGA או IPA, מהגופים המובילים בעולם במחקרים למטרות חברתיות.