ללמוד R בדרך למדע נתונים (חלק 1)

התחלתי את החלק השני של הקורס Data Analytics & Sience של נאיה קולג', בשני המפגשים הראשונים עברנו על המהות של מדע הנתונים כמו שכתבתי בפוסט הקודם "על מה אני מדבר כשאני מדבר על מדע נתונים (חלק 1)".

החלק הזה של הקורס כולל אלמנטים בסיסיים בעבודה של מדען הנתונים וכן לימוד שפת R. את ההיכרות הראשונה שלי עם R עשיתי במסגרת התזה שלי בתואר שני בטכניון. נדרשתי לבנות מודל ממשתנים אישיותיים, ארגוניים וסביבתיים על מנת להסביר חדשנות בארגונים, היו הרבה משתנים והיה קושי להריץ את כל זה באמצעות SPSS שהיא התוכנה שעבדתי איתה בזמנו. R נתנה לי כלי תכנותי פשוט יותר ומוכן להתמודד עם נפחים גדולים של ניתוחי נתונים באמצעות שימוש מובנה בקוד ובסה"כ הקלה לי על החיים. אז כמה מילים על R – לפי ויקיפדיה "שפה R היא שפת תכנות וסביבת עבודה למחשוב וגרפיקה סטטיסטיים. שפת R נמצאת בשימוש נרחב בקרב סטטיסטיקאים וכורי נתונים ומשמשת לפיתוח תוכנה סטטיסטית וניתוח נתונים. סקרים ומחקרים שנערכו הראו כי הפופולריות של R גדלה באופן משמעותי ובעשור השני של המאה ה-21 היא כבר נחשבת לסטנדרט ביצירה של תוכנות סטטיסטיות.". אחד מהיתרונות הבולטים של R היא שמדובר בשפת קוד פתוח שקהילת המשתמשים בה גדלה מיום ליום וכוללת סטטיסטיקאים, אנליסטים, מדעני נתונים, אקדמאים ועוד. לR קהילה צומחת ופורומים רבים שקשורים לנושא, גם בישראל. הקהילה של R יוצרת "חבילות" של קוד למשתמש (Packages) שכוללות ניתוחים מובנים בתחומים שונים, יש המון כאלה והם נוחות לשימוש לתחומים שונים.

כיום יש אלטרנטיבות ובראשן Python שהיא שפה נוחה יותר לפי מה שהבנתי וניתן לבצע בה ניתוחים וכתיבת קוד מורכב יותר. ויש אנשים שעשו אינפוגרפיקה יפה ויסבירו בדיוק את ההבדלים. בכל מקרה נכון להיום R היא השפה סטטיסטית הפופולרית ביותר. והיא גם חינמית.

תמונה של המעצב Gevin Potenza

 

gevinpotenza1

 

אז מתחילים בקורס והכל נראה לי פחות או יותר מוכר, אנחנו עובדים עם הגרסא המורחבת של R שנקראת Rstudio וכוללת ממשק נוח למשתמש סטייל חלונות. נוחות השימוש מפתיעה, היכולת שלך להבין באופן תיאורי את הנתונים החל מהשלב שאתה מעלה את הData Set היא מרשימה. R מציג אינפורמציה ועושה זאת בחינניות.

 

חייב להבהיר, אני לא הולך ללמד פה אף אחד את R. אין לי את הסבלנות, היכולת הדידקטית או הרצון לעשות דבר כזה נועז. אני רק אמליץ פה ושם על המקומות שאני לומד בהם. למשל, מייק מארין, בחור סימפטי למדי עם קול שאפשר לסבול. זה השיעור הראשון וזה ערוץ היוטיוב שלו, אם הולכים עם מייק לאורך הדרך מגלים מהר מאוד שאתם יודעים לעשות ניתוחים מורכבים עם R ושולטים בשפה.


 

 

אופציה נוספת אתם היא לקרוא איזה ספר או לנסות ללמוד לבד. אצלי הדבר שהכי סייע היא העובדה שלמדתי על מאגר נתונים שלי ושהייתי צריך לעבוד איתו באופן יומיומי, אני ממליץ לסטודנטים מבינינו שנתקלים באיזשהו תרגיל/סמינריון לעבור לR. אם יש דרישה לעבוד SPSS תעשו זאת אבל תגבו את העבודה שלכם עם R וכך תוכלו לראות אם התוצאות זהות וללמוד הרבה מתהליך העבודה. תוקם ועידת חקירה למה עוד לא קבעו את R או Python כסטנדרט באוניברסיטאות. כמו כן ישנם קורסים ברוב מוסדות הלימוד של R שניתן להירשם אליהם.

קורסים לדוגמא: אוניבסיטת תל אביב , אוניברסיטת חיפה. כמו כן אפשר לקחת קורס R באחת מהמכללות אצל ג'ון או נאיה. בנס שאלו אותי "מה זה R?" אז אני מבין שאין להם כרגע קורס.

 

דרך טובה ללמוד היא לעבוד על מאגר נתונים שמעניין אתכם, בגלל שקצת קשה לי לנחש אני אפנה אתכם לכמה ממאגרי המידע (Data Set) הקיימים. בקורס קיבלנו המלצה מעמית לעבוד עם מאגר הנתונים של Center for Machine Learning and Intelligent Systems שמציג סדרת מאגרי נתונים נוחים לשימוש. מאגר הנתונים מאורגן על ידי חלוקה לקטגוריות שונות כמו שיטה לניתוח נתונים (רגרסיה, קלאסיפיקציה, קלאסטר), סוגי משתנים (קטגוריאלי, נומרי), סוגי נתונים, תחום (מדעי החברה, משחקים, עסקים). אני בחרתי מאגר של נתוני סטודנטים משני בתי ספר בפורטוגל בקובץ סיאסבי. לטובת המתקדמים יש חבר'ה שכתבו על זה מאמר שעוזר להבין את הניתוחים הסטטיסטיים שהם השתמשו בהם. עם מאגר הנתונים מגיע אינדקס מפורט בקובץ טקט על כל אחד מהמשתנים כדוגמא:

Screenshot 2015-05-16 at 6.12.03 PM

מאוד נוח לעבוד עם מאגר הנתונים הזה.

פשוט כדאי להתחיל לשחק עם הדאטה, קצת סטטיסטיקה תיאורית, קצת קשרים בין משתנים וקצת מניפולציות על הנתונים. אני בטוח שתסתדרו, שיהיה בהצלחה עם זה.

 

מאת

Elad Gvirtz

סקרן, חקרן, מתעניין, אוהב חידושים, שינויים, תנועת אנשים ורעיונות

4 תגובות בנושא ״ללמוד R בדרך למדע נתונים (חלק 1)"

  1. מעניין מאד… אבל פוסט אחרון בנושא Data Science ממאי 2015? מה קרה בשנתיים וחצי מאז? אני במתח…. סיימת? מצאת עבודה בתחום? עדיין מעניין כפי שתארת לעצמך? אנא אדכן ושתף…
    (גילוי נאות – גם אני חקרן וסקרן שמתעניין מאד בתחום)

להשאיר תגובה

הזינו את פרטיכם בטופס, או לחצו על אחד מהאייקונים כדי להשתמש בחשבון קיים:

הלוגו של WordPress.com

אתה מגיב באמצעות חשבון WordPress.com שלך. לצאת מהמערכת /  לשנות )

תמונת גוגל פלוס

אתה מגיב באמצעות חשבון Google+ שלך. לצאת מהמערכת /  לשנות )

תמונת Twitter

אתה מגיב באמצעות חשבון Twitter שלך. לצאת מהמערכת /  לשנות )

תמונת Facebook

אתה מגיב באמצעות חשבון Facebook שלך. לצאת מהמערכת /  לשנות )

w

מתחבר ל-%s