על מה אני מדבר כשאני מדבר על מדען נתונים – Data Scientist (חלק 1)

על מה אנשים מדברים שהם מדברים על מדען נתונים (Data Scientist)?

לפי עמית רפל הם מדברים על כל מיני דברים שונים, בלאגן של מונחים והגדרות. עמית הוא המרצה שלי בקורס Data Analytic & Science של נאיה קולג' ומדען נתונים עצמאי, השבוע התחלנו את החלק השני של הקורס אחרי הSQL וכלי הBI. מנסים לדחוס כמה שיותר הבנה על מדע נתונים ב40 שעות. טעימה. מדע נתונים הוא תחום מתפתח, צומח ופורח, בינתיים צצו אינספור מגדירים שונים לכל צמחיית הנתונים הזו שעולה לפני השטח בשנים האחרונות. (ואת חלקם תמצאו פה).

אני פותח את סדרת הפוסטים "על מה אני מדבר כשאני מדבר על מדען נתונים" ובחלקים הבאים אתקדם לאט ואנסה לתת אספקטים שונים של המקצוע שאני לומד עכשיו, בשבילי חלק חדש חלק ישן וחלק מתחדש.
בפוסט הראשון בסדרה אתייחס לצד התאורטי והעסקי של התחום שאותו כרגע אני מבין בראש אבל רחוק מהבנה אמיתית שתגיע לאט לאט דרך האצבעות על המקלדת.

על מי אני מדבר כשאני מדבר על מדען נתונים? מדען נתונים נותן ההסתכלות למה שמעבר- מעבר לניתוח הנתונים הקיימים, מעבר למה שהיה, למה שאנחנו כבר יודעים, לסטטיסטיקות היבשות והנתונים ההשוואתיים.

מדען נתונים משתמש בכלים סטטיסטיים פרדיקטיביים המבוססים על מודלים, Machine Learnind, Data Mining על מנת לתת תחזיות למה הולך להתרחש לצורך קבלת החלטות.

כשמו כן הוא 'מדען' . מדען משתמש בשיטות מחקריות לעשות מחקר נסגר במעבדה שלו וחוקר, עושה ניסויים, משער השערות, בונה מודלים ומתקף אותם. מדען נתונים פשוט יושב מול דאטה ועושה מחקר, זה משנה/לא משנה איזה דאטה, מדעני נתונים יכולים לפעול בכל אחד מהתחומים המוכרים. הם צריכים דאטה ותו לא. כמובן שיש להם יתרונות בתחומים בהם הם פועלים לאורך זמן ובהתמחותם. כך למשל נראה יום בחיי מדען נתונים.

 

אם כך מדעני הנתונים נסגרים בחדר עם נתונים ומוציאים תובנות, הם יוצרים כללים, מודלים וכלי הערכה. מבחינת החברה כל זה כמובן כדי לדאוג שבעלי הבית מרוויחים המון כסף/מצילים את העולם. מבחינת המדען יש כאלה שיאהבו את הפיצוח, יש כאלה שאת החקירה והתבוננות, ויש כאלה שפשוט אוהבים נתונים. לכו תדעו למה. אני עוד לא יודע למה.

אדבר על הארגון כשאני מדבר על מדען נתונים, זווית פונקציונלית ארגונית. איפה מדען נתונים נמצא בארגון ובאילו ארגונים הוא פועל?

Screenshot 2015-05-05 at 1.56.18 PM

יש מדעני נתונים שעובדים לבד, יש כאלה שעובדים יחד, יש כאלה שעצמאיים ונקראים לארגון לפרויקט ספציפי. בתרשים הנ"ל מוצגת זרימה של שרשרת הערך בה מדען הנתונים לוקח חלק, מוצגים האנשים השונים בארגון ומוצגת הדמות של מדען הנתונים בתור מפתח המודלים. אולם מדעני נתונים נמצאים בעמדות שונות בארגון וכפופים לאנשים שונים, לחלקם יש עצמאות גדולה יחסית בארגון. מדען נתונים יכול להיות איש הנתונים היחידי בארגון מעין נינג'ה שמתעסק בכל החל מבניית מאגר הנתונים ועד התחזיות, דבר שנפוץ בעיקר בחברות סטארט-אפ בשלבים התחלתיים. ישנן חברות שבסיס הפיתוח מבוסס על מדעני נתונים כמו C-B4 שמייצרים ערך על ידי מודלים לחיזוי אירועים שונים בהתבסס על התנהגות צרכנים ושילוב בין נתונים שונים כגון שימוש ברשת סלולרית, חברתית ועוד. מספר חברות גדולות כגון EMC, Microsoft ועוד מעסיקות צוותי מחקר של מספר מדעני נתונים. משרדי ממשלה מעסיקים מדעני נתונים ותחום זה יתפתח אצלם בהתאם לדרישה, כמו כן מדעני נתונים יועסקו בארגונים ביטחוניים, חברות ייעוץ ומחקר.

מדעני נתונים וביו אינפורמטיקאים עובדים במחקרים רפואיים וחברות בתחום. בכתבה שערכתי למגזין עסקי של עיתון 'הארץ' ראיינתי את פרופ' ירדנה סמואלס מהמחלקה לביולוגיה מולקולרית של התא במכון ויצמן שמפתחת בדיקות גנטיות לסרטן העור מלנומה לפי חתימות מולקולריות שמהוות בסיס לתרופות מותאמות אישית, היא חוקרת מובילה בתחום וזיהתה בשנת 2004 גן הגורם לסרטן השד. סמואלס הדגישה את החיבור בין אנשי נתונים לבין רופאים/חוקרים, על סמך נתונים גנומיים ממאות חולים הוקם מאגר נתונים של רקמות שנלקחו מגידולי מלנומה ומרקמות בריאות תואמות על מנת להבין את אופן פעולתם של מנגנוני הסרטן והתאמת תרופות ממוקדות למנגנונים אלו השונים מאדם לאדם. היא לוקחת חלק במרכז הלאומי לרפואה מותאמת אישית של מכון ויצמן. המרכז משתמש ביכולות ניתוח דאטה מורכבות ותכנות אלגוריתמים תוך שיתוף פעולה עם ביו-אינפורמטיקאים, פרופ' סמואלס מדגישה את החשיבות של העבודה האינטרדיספלינרית ושיתופי פעולה ככר פורה לניסוי טכנולוגיות ואנליזות חדשות. אם כך כאשר אנחנו מדברים על הארגון בו מדען הנתונים עובד מדובר על הגדרה רחבה ביותר.

בפוסט קודם ערכתי רשימה של חברות המעסיקות מדעני נתונים.

 

התפלגות התעשיות המעסיקות מדעני נתונים בארה"ב:

 Screenshot 2015-05-05 at 1.54.59 PM

באיזה קומה/משרד/אגף/מחלקה יושב מדען הנתונים? ועם מי הוא מדבר/לא מדבר? למי הוא כפוף? אז פה כמובן שיש הרבה תשובות. בד"כ הדרישות יגיעו מלמעלה (CEO, CTO, מנהל) ומלמטה (משתמש קצה). ההגדרה הכי טובה לחיבור הארגוני של המדען היא לכל מי שנותן ידע ויושב על מאגרי הנתונים. החל מDBA , אנשי BI וכו.. כל מי שמתלכלך בביצת הדאטה איתו. גורמים נוספים הם המקשרים בין צרכי המדען לבין הארגון וכן אלו שיטמיעו בסופו של דבר את המערכת.

למדען נתונים טוב יש את היכולת לראות את כל התהליך כולל את החלקים האחרונים הנוגעים להצגת הנתונים והטמעת המודל. בעצם מהותו של מדען הנתונים הוא שיש לו יכולת להתממשק עם גורמים רבים בארגון ולכן היכולת שלו להעביר את המסר בצורה ברורה לכל אחד מאלה היא חיונית. מדען הנתונים כמו כל מדען מחזיק ידע מורכב, לא מוסדר, סטטיסטי, הבנוי על מודלים ולפעמים יהיה לו קושי להעביר את התובנות, הוא צריך ללעוס את הנתונים טוב טוב לפני שמגיש אותם לפיהם של בעלי הבית.

וכמובן קצת ויזואליזציה תועיל למדען נתונים להציג תובנות –  בדוגמא הבאה.

בפוסט הבא אדבר על תהליך העבודה של מדען הנתונים ובאילו בעיות הוא נתקל.

Screenshot 2015-05-05 at 1.57.10 PM

מאת

Elad Gvirtz

סקרן, חקרן, מתעניין, אוהב חידושים, שינויים, תנועת אנשים ורעיונות

3 תגובות בנושא ״על מה אני מדבר כשאני מדבר על מדען נתונים – Data Scientist (חלק 1)"

  1. משהו חשוב ששכחת להזכיר –
    מהן הדרישות להתקבל לתחום הזה?
    אני בעלת תואר בבלשנות ורצון לעסוק בתחום. האם יש כיוון ממנו כדאי להתחיל?

    1. הדבר החשוב הוא לעשות את ההשלמות המתאימות כדי לעסוק במקצוע. אני מדבר בבלוג על הקורס בנאיה קולג' אבל יש דרכים נוספות.
      בנוסף אפשר לראות חלק מהדרישות למשרות Data Science בעמוד דרושים בבלוג

להשאיר תגובה

הזינו את פרטיכם בטופס, או לחצו על אחד מהאייקונים כדי להשתמש בחשבון קיים:

הלוגו של WordPress.com

אתה מגיב באמצעות חשבון WordPress.com שלך. לצאת מהמערכת /  לשנות )

תמונת גוגל פלוס

אתה מגיב באמצעות חשבון Google+ שלך. לצאת מהמערכת /  לשנות )

תמונת Twitter

אתה מגיב באמצעות חשבון Twitter שלך. לצאת מהמערכת /  לשנות )

תמונת Facebook

אתה מגיב באמצעות חשבון Facebook שלך. לצאת מהמערכת /  לשנות )

w

מתחבר ל-%s