DataHack 2016 האקטון דאטה

בניין היסטורי בירושלים שהיה בעברו בית חולים למצורעים אירח את ההאקתון DataHack-2016 שהתקיים שנה שניה ברציפות. כ200 אנשי דאטה, חוקרים, ומעצבים (לא מצורעים – מעצבים שמשתפים פעולה) נכנסו לבית הנסן ויצאו אחרי שלושה ימים שבמהלכן פתרו בעיות הקשורות לדאטה. החבר'ה התחלקו לצוותים ויצרו פתרונות לבעיות שונות שחלקן הוכתבו על ידי החברות הספונסריות וחלקן קשורות לפיתוחים חדשים. לדוגמה ב2015 פותחה מערכת ניווט מבוססת נתוני פשיעה, זיהוי בני נוער בסיכון בפורומים של הקהילה הגאה וחלופה ל"שאזאם" ספרים. לצערי לא השתתפתי אך מי שכן דיווח על כך שההאקתון אורגן ביעילות על ידי קבוצת סטודנטים מהאוניברסיטה העברית ובצלאל, האווירה הייתה טובה, הבירות קרות וכן הפידבקים החיוביים מהמשתתפים. בכלל נראה ששלושה ימים בבית מצורעים עשו משהו טוב לרוח וליכולות הדאטה. משתתפים סיפרו על חוייה מאוד מעניינת, אנשים מתחומים שונים, קבוצות מקצועיות ועזרה הדדית. שיתוף פעולה בין חברי הקבוצות ובין בקבוצות השונות והתוצרים היו יצירתיים ומהודקים.

הספונסריות סיפקו אתגרי דאטה שונים לדוגמא Final נתנו דאטה סט של נסיעות מוניות בעיר ניו יורק שכלל זמן נסיעה, תאריך, מרחק וכו כשהמטרה היא לחזות את זמן הנסיעה. אחת הקבוצות הזוכות THE FINAL COUNTDOWN התייחסו Features של מיקום, נקודות עניין, יום בשבוע, מזג אוויר, כמה רכבים יצאו לנסיעה דומה, מרחק אווירי מול מרחק נסיעה (נותן אינדיקציה על כמה פניות יש בדרך) ועוד. על מנת לפתור את הבעיה הם התמקדו באירועים שונים ברחבי העיר ובחנו את הקשר בין העומס שנגרם בעקבות לבין זמני הנסיעות. הם לקחו כתבות שונות בNYTIMES וכמות הכתבות על כל אירוע לאפיין את מהות האירוע והיקפו.

חברת INTEL נתנה אתגר חברתי וקבוצה שנענתה לו יצרה אפליקציה שמזהה בריונות ברשת (אינטל לא נתנה דאטה סט או משהו בסגנון הם הלכו על "אנחנו תורמים לחברה וכסף לאירוע אז זה מספיק מבחינתנו") רצוי לציין את Paypal, Windward וFinal שבאו עם אתגרים טובים ותמיכה ויופי של מתנות.

ביום האחרון התקיימה התחרות והוכרזו הזוכים:

קבוצת Big Data Lab מאוניברסיטת תל אביב יצרו את MoneyBall שמטרתה לנצח את הFantazy League של הNBA שהיא ליגה שבה שחקנים מרכיבים קבוצות על בסיס שחקני NBA ומתחרים בליגות וירטואליות המתחשבות בביצועי השחקנים האלו בעולם האמיתי. עניין שמריץ לא מעט כסף באמריקה הגדולה, לפי הערכות שחקן ממוצע מוציא 460$ ויש 32 מיליון כאלו. (קשה להאמין). אז איך מנצחים את הפנאטים של הספורט עם האקסלים? Line Up Optimization לבחור את הקבוצה הטובה ביותר לפי תקציב נתון, 170 עמודות לכל שחקן כולל מאיפה הוא זורק, עמדה כמשתנה רציף(Point Guard=1 , Shooting Guard=2) רגרסיות לינאריות , והרצה של Random forest model. הצוות  הוסיף סיכון ולקח שחקנים בעלי שונות גבוהה להגדיל את הסיכוי לזכייה. הדאטה סט קיים באתרים השונים על כ200 שחקנים במספר עונות, החיבה של האמריקאים לסטטיסטיקה בספורט נותנת פה רוח גבית. נראים חברה רציניים במעבדה, סחטיין:).

זוכים נוספים הם Maze שהמטרה שלהם היא ליצור פלייליסטים שאנשים יאהבו לשמוע על בסיס פלייליסטים קיימים. הם הורידו רשימה גדולה ועשו ניתוח טקסט ורשת נוירונים, ומיקמו את השירים על מפה תלת מימדית לפי סגנון. התוצר הוא נגן שמציע לך פלייליסט ואתה יכול לבחור האם הוא מתאים לך או שאתה רוצה להחליף "כיוון". יש אפשרות נוספת להתחיל משיר פתיחה ושיר סיום ולבנות רצף בניהם, אם אתה רוצה להתחיל את הריצה עם חוה אלברשטיין ולסיים אותה עם Rage against the machine (learning) השופטים שאלו על מדד ייחוס שכרגע חסר ועל איך מזהים פלייליסטים של מחשב מול פלייליסט של אדם, רשימות ארוכות מידי הן כנראה של מחשב אבל יש עוד עבודה שם.

קבוצה נוספת היא DOORKS שמתמקדים בעולם הבנייה ומתעמקים בתוכניות הבניה המפורטות והמסובכות, תכניות בניה הם על A3 ולוקח זמן להבין אותן, הם בנו אלגוריתם שבאמצעות Features detection מזהה את כמות הדלתות ויכול לסייע בתמחורן דבר שנעשה לרוב בצורה ידנית. נעשה עיבוד תמונה על ידי רשתות נוירונים בכלים של Open source בלבד (מחיאות כפיים נשמעו מהקהל). קבוצה זוכה נוספת היא Likly שעוזרת לך להיות אושיית אינסטגרם מוצלחת ולהגשים את שאיפות הפרסום שלך באמצעות אלגוריתם. הם השתמשו Google cloud Vision API (שימו תמונה שלכם, די קול) הפיצ'רים המגיעים מגוגל כוללים האם יש אנשים התמונה, צבעים, מתי נלקחה וכו. הם מציעים כמה לייקים התמונה תקבל אם תעלה אותה בשעה הקרובה או בזמן אחר. האלגוריתם לא מתחשב במספר העוקבים אלה במספר הלייקים שהמשתמש קיבל עבור תמונות שונות. נשאלה שאלה מהשופטים לגבי אגרגציה, הם ענו שאגרגציה מתבצעת על ידי האלגוריתם של גוגל.

אחרונים חביבים עלו קבוצה משעשעת שהסלייד הראשון שלהם כלל סרטון עם הרג של מפגין שחור בארה"ב, כבר מעניין. מועצת הקומה ה19 הציגו מערכת ליצירת טוקבקים עסיסיים שיהיו בוטים, אגרסיביים ולא יצאו פרייארים ליד אחיהם העילגים 1!! ואני ראשון!!. הדאטה סט הוא הכתבות עצמן והטוקבקים (מדובר בשפות שונות, אמנם שתיהן בעברית אבל קיימת קורלציה נמוכה בניהן, סתם). השתמשו בRecord neural network )RNM  אלגוריתם שמציע את המילה הבאה עבור הטוקבק, אתה מתחיל להסלים את התגובה והאלגוריתם משלים אותך בשמחה באמצעות שימוש Contextual LSTM, הם יצרו כפתור שיוצר טוקבק. הארכיטקטורה מאפשרת זכירת קונטקסט ושימוש בו, אין הרבה חבילות בעברית מה שהקשה קצת על העבודה.

יופי של אירוע, שרק ימשיך ככה גם בשנה הבאה – שנה טובה

מאת

Elad Gvirtz

סקרן, חקרן, מתעניין, אוהב חידושים, שינויים, תנועת אנשים ורעיונות

להשאיר תגובה

הזינו את פרטיכם בטופס, או לחצו על אחד מהאייקונים כדי להשתמש בחשבון קיים:

הלוגו של WordPress.com

אתה מגיב באמצעות חשבון WordPress.com שלך. לצאת מהמערכת /  לשנות )

תמונת גוגל פלוס

אתה מגיב באמצעות חשבון Google+ שלך. לצאת מהמערכת /  לשנות )

תמונת Twitter

אתה מגיב באמצעות חשבון Twitter שלך. לצאת מהמערכת /  לשנות )

תמונת Facebook

אתה מגיב באמצעות חשבון Facebook שלך. לצאת מהמערכת /  לשנות )

w

מתחבר ל-%s