האמת הפשוטה על מדע הנתונים שאנשים מתקשים להבין
נתונים הם צורך הכרחי למחקר ויישומי אינטליגנציה מלאכותית. לכן אין מנוס מלמצוא פתרונות למתח שקיים בין הצורך בנתונים לבין שאלות חוקיות או אתיות שונות

כשעוסקים במדע נתונים, אם אין נתונים, אין מדע. בדיוק כמו שלא ניתן לאפות לחם בלי קמח. מפתיע עד כמה אנשים מתקשים לפעמים להבין את האמת הפשוטה הזו. הטור הזה עוסק בחשיבות של נתונים לצורך מחקרי אינטליגנציה מלאכותית ונכתב בעקבות דברים שהצגתי בדיון שהתקיים באוניברסיטת תל אביב בסוגיית האיזון במשטר נתונים לישראל. כלומר, כיצד מאזנים בין הרצון לקדם מחקר ויישומים של אינטליגנציה מלאכותית בישראל, אל מול שאלות של פרטיות וזכויות אזרח בחברה דמוקרטית. לא אעסוק כאן בסוגיה הרחבה, אלא אתמקד בשאלת החשיבות של הנתונים שבה פתחתי.
אקדים את ההסבר המפורט ואדגיש שוב כי נתונים הם צורך הכרחי למחקר ויישומי אינטליגנציה מלאכותית. פעמים רבות יש קושי להשיג או לאסוף נתונים לצורך מחקר או פרויקט מסוים. יש לכך סיבות מגוונות. לפעמים פשוט אין מספיק נתונים (או שאיכותם ירודה), ואז צריך ליזום פעולות כדי לאסוף אותם ממקורות שונים, או לייצר אותם לבד. אבל גם כאשר הנתונים קיימים, אין זה אומר שניתן להשתמש בהם. אם בשל סייגים שנובעים משמירה על פרטיות של אנשים (למשל נתונים רפואיים), או שאלות של סודיות עסקית של חברות וכיוצא בזה. ומכאן נובע המתח בין הצורך בנתונים, לבין שאלות חוקיות או אתיות שונות.
ניתן לחלק את הדיון בצורך בנתונים לשני שלבים. תהליך הלמידה, או בניית המודל (והמערכת) ותהליך ההפעלה השוטף של המערכת. ניתן לכאורה לייצר מערכות חוקים (מערכות מומחה) בלי נתונים. זאת מכיוון שאפשר לכתוב חוקים שמבוססים על ידע וניסיון קיים של מומחים. אבל בלי נתונים אי אפשר לבדוק את נכונות החוקים וכתוצאה מכך אי אפשר לשפר אותם. ומכיוון שמערכות חוקים נוטות ממילא להיות מאתגרות לתחזוקה, ללא נתונים שמשמשים למדידה וכיוונון הן מאבדות רלוונטיות מהר מאוד.
בתחום למידת המכונה, כל שיטות הלמידה המונחית מבוססות על איסוף של נתונים, הבנה ותיוג שלהם. זאת לעומת שיטות למידה בלתי-מונחית, למשל זיהוי אנומליות, שאינן מחייבות להבין ולתייג את הנתונים ועקב כך מאפשרות שמירת פרטיות (כי אין הכרח שאנשים יחשפו לנתונים). אבל גם למידה זו בלתי אפשרית ללא הגישה של המכונה לנתונים. לעתים ניתן להשתמש בשלבי הלמידה והאימון בנתונים סינתטיים, או בנתונים שעברו מראש תהליכים מיוחדים לצורך שמירה על פרטיות או הסתרת מידע מסווג. הניסיון מלמד שזה עלול לפגוע בביצועי המודל או המערכת, אבל לפחות מאפשר להתחיל את התהליך.
בשלב ההפעלה השוטף של המערכת הצורך בנתונים אמיתיים גובר. אם המודל או המערכת לא עובדים טוב, נדרש לאבחן מדוע. בדרך כלל לא ניתן להבין את הבעיה ולנסות לפתור אותה, מבלי לנתח נתוני אמת של המערכת. בדיוק כמו שיהיה קשה לאבחן מחלה של אדם חולה רק על סמך ספרי רפואה, מבלי לבדוק את החולה עצמו. יתרה מכך, במערכות רבות המטרה היא להצביע על תוצאות שדורשות המשך טיפול. למשל מערכת שמטרתה להתריע על ממצא מחשיד לטובת הגנת סייבר. במקרה כזה, שוב נדרשת יכולת לבחינה אנושית של התוצאות וביצוע חקירה. כלומר, לחזור ולבחון נתוני אמת של המערכת.
הבעיה מחריפה עוד יותר כשעוסקים בנתונים דינמיים, או בסביבות מתפתחות שדורשות התאמות שוטפות. נתונים דינמיים מאפיינים אירועים שהתרחשו בנקודת זמן מסוימת. במקרים רבים אופי הנתונים הללו משתנה לאורך זמן. למשל, אופי הצפיות בסדרות טלוויזיה משתנה, מכיוון שהטעם של הצופים אינו קבוע. כתוצאה מכך מודל למידת מכונה שאומן בעבר עלול ליהפך ללא-רלוונטי לאחר תקופה מסוימת.
המשמעות היא שאם הושקע מאמץ לבניית מאגר נתונים ייחודי לטובת שלבי הקמת המערכת, המאגר אינו מתאים עוד. בסביבות מתפתחות המצב מורכב עוד יותר. לדוגמה, איתור קבצים עוינים (וירוסים) בעולם הסייבר דורש הקמת מאגר של וירוסים לצורכי אימון מערכות ההגנה. אבל קצב התפתחות מרוץ החימוש בין התוקף למגן בסייבר (אבולוציית וירוסי המחשב) הוא מהיר מאוד. מאגר וירוסים שנבנה לפני כשנה כבר לא יהיה מספיק רלוונטי, למרות שלא מדובר במאגר של נתונים דינמיים.
לסיכום, נתונים נדרשים לצורך תהליך בניית המערכת, למידה ובחינת השערות. נתונים נדרשים גם לצורך כיוונון המערכת בזמן הפעלתה. בתחומים שונים נתונים נדרשים גם לצורך יישום נכון של מטרת המערכת, כגון חקירת תוצאות. אם לפעמים ניתן להקים מאגר סינתטי או ייעודי, יש מקרים שבהם מאמץ חד-פעמי להקמת מאגר אינו עומד במבחן הזמן. לכן אין מנוס אלא לקדם פתרונות שיאפשרו עיסוק שוטף בנתונים, בין אם מדובר בפתרונות טכנולוגיים (שחלקם כבר קיימים כיום), או בפתרונות של חקיקה או אסדרה.
הערה לקוראי הבלוג הנאמנים: ניתן לגשת לכל הפוסטים מסודרים על פי נושאים, מאתר הבית שלי.
עוד פוסטים מזירת הניתוחים

זה לא הזמן למומחים מטעם עצמם
בשעת משבר זאת, מומלץ להוריד את טון הביקורת על מנהלי המשבר במשרד הבריאות, שמנהלים אותו עד כה בצורה מעוררת הערכה

האם וירוס קורונה יכול לעבור באוויר?
מאמר חדש טוען כי העברת וירוס קורונה באוויר היא אפשרית, כמו גם זיהום סביבתי שנגרם עקב חולי קורונה השוהים בחדר. ואולם, המחקר מעלה הסתייגויות שונות, שטרם זכו למענה

לאוצר יש כלי יעיל שיחסוך למשק מיליארדים - אז למה הוא לא משתמש בו?
ארכימדס אמר פעם "תנו לי נקודת משען ואזיז את העולם ממקומו", ואני אומר - תנו למגזר העסקי תאריך יעד והוא יוציא אותנו מהמיתון

זה מרגיש כמו מלחמה - אבל ההתאוששות תהיה מהירה הרבה יותר
משבר הקורונה יוצר תחושת קטסטרופה - אך חשוב לזכור שהנגיף לא מוחק הון פיזי והכלכלה הריאלית תוכל להתאושש במהרה לאחר שיובס ■ בכך המשבר הנוכחי דומה יותר למשבר 2008 מאשר למלחמת העולם השנייה

ישראל יוצאת מהגדילה האקספוננציאלית, אך משאירה את הצוותים הרפואיים מאחור
במשרד הבריאות מציגים את הנתונים בסקלה לינארית, ואז קשה יותר לראות איך הדברים משתנים - ובפרט האם יש גדילה אקספוננציאלית. דרור פייטלסון מציג אותם בסקלה לוגריתמית, ויש לו בשורות טובות ובשורות רעות
תגובות
דלג על התגובותתודה!
תגובתך נקלטה בהצלחה, ותפורסם על פי מדיניות המערכת
באפשרותך לקבל התראה בדוא"ל כאשר תגובתך תאושר ותפורסם.
אנא המתינו……
תודה!
תגובתך נקלטה בהצלחה, ותפורסם על פי מדיניות המערכת
אירעה שגיאה בעת שליחת התגובה
אנא נסה שנית במועד מאוחר יותר