חזרה לבלוג
automation·18 ביוני 2026·8 דק' קריאה·מאת יהונתן סעדיה

איך לנקות נתונים מבולגנים בעזרת AI

מדריך למתחילים: איך לנקות נתונים מבולגנים בעזרת AI, לתקן פורמטים לא עקביים, להסיר כפילויות, לאחד שמות ותאריכים ולפצל או לאחד עמודות, עם פרומפטים להעתקה ודוגמה מלפני ואחרי.

כמעט כל מערך נתונים שאי פעם קיבלתי היה מבולגן. תאריכים כתובים בחמש דרכים שונות, אותו לקוח מאוית בשלוש צורות, מספרי טלפון עם ובלי קידומת מדינה, שורות כפולות, תאים ריקים, ושורת כותרת תועה שצפה באמצע הקובץ. לנקות את זה ידנית זו עבודה שאוכלת חצי יום וגורמת לך לרצות לסגור את המחשב. הבשורה הטובה היא שעכשיו אפשר לנקות נתונים מבולגנים בעזרת AI: מעלים את הקובץ, מתארים את הסטנדרט הרצוי, ונותנים לכלי לעשות את עבודת החיפוש-והחלפה המייגעת בזמן שאתם מפקחים.

זה אחד השימושים בעלי הערך הגבוה והסיכון הנמוך ביותר של AI לעסק קטן, כי נתונים נקיים הם היסוד מתחת לכל דוח, כל קמפיין מייל וכל אוטומציה. במדריך הזה אראה לכם את הצעדים המדויקים, אתן פרומפטים להעתקה, אעבור על דוגמה אמיתית של לפני ואחרי, ואהיה כן לגבי המקומות שבהם זה יכול להשתבש.

למה נתונים נקיים חשובים לפני הכל

אי אפשר לנתח, לדווח על, או להפוך לאוטומטיים נתונים שאי אפשר לסמוך עליהם. אם רשימת הלקוחות שלכם מכילה את "Acme", "ACME Ltd" ו-"acme inc" כשלושה רישומים שונים, דוח הלקוחות הגדולים שגוי, ספירת המיילים שגויה, וכל אוטומציה שמקבצת לפי לקוח נשברת. ניקוי אינו זוהר, אבל הוא השלב שגורם לכל מה שאחריו לעבוד. לעשות אותו קודם הוא הסיבה שהניתוח במדריך ניתוח נתוני Excel עם ChatGPT והדוחות במאמר הפיכת נתונים לדוח בעזרת AI יוצאים אמינים.

מה צריך

השתמשו בכלי שמריץ ניתוח אמיתי על הקובץ: ChatGPT עם כלי ה-Advanced Data Analysis, או Claude עם העלאת קבצים. הסיבה שזה חשוב במיוחד לניקוי היא שהכלים האלה מריצים קוד ממשי על הנתונים, אז כשהם מסירים כפילויות או מפרמטים מחדש אלפי שורות, הם עושים זאת תכנותית ובאופן עקבי במקום לנחש שורה אחר שורה. זה הופך את התוצאה לאמינה הרבה יותר, אם כי עדיין מאמתים אותה.

שלב ראשון: מעלים ומבקשים בדיקה קודם

התאפקו מהדחף להתחיל לתקן מיד. המהלך החכם הראשון הוא לבקש מהכלי למצוא את הבעיות לפני שהוא משנה משהו. הנה פרומפט להעתקה:

העליתי רשימת לקוחות מבולגנת. לפני שאתה משנה משהו, תן לי בדיקה:
- תרשום כל בעיית איכות נתונים שאתה מוצא (פורמטים לא עקביים, כפילויות, ריקים, שגיאות הקלדה, אותיות רישיות מעורבות, שורות תועות).
- לכל אחת, תגיד לי כמה שורות מושפעות.
- אל תשנה את הקובץ עדיין. רק תדווח.

זה עושה שני דברים. זה מראה לכם את היקף הבלגן, וזה מאפשר לכם לאשר את התוכנית לפני שמתבצע כל שינוי. אתם נשארים בשליטה.

שלב שני: מאחדים פורמטים

עכשיו מתקנים, קטגוריה אחת בכל פעם. היו מפורשים לגבי הסטנדרט הרצוי, כי אין פורמט נכון אוניברסלית, רק זה שהכלים שלכם במורד הזרם מצפים לו.

עכשיו נקה את הקובץ עם הכללים האלה:
- תאריכים: המר את כולם ל-YYYY-MM-DD.
- מספרי טלפון: פרמט כקידומת מדינה ואז ספרות, בלי רווחים.
- שמות וחברות: אות ראשונה גדולה (למשל "john smith" הופך ל-"John Smith").
- חתוך רווחים מיותרים והסר שורות ריקות לגמרי.
תראה לי סיכום של כמה תאים שינית בכל קטגוריה.

בקשת הסיכום היא המפתח. אתם רוצים לראות שהוא שינה, נניח, 412 תאי תאריך ו-88 מספרי טלפון, כדי שתוכלו לוודא שההיקף תואם למה שהבדיקה מצאה.

שלב שלישי: מסירים כפילויות ומאחדים שמות

זה החלק שבני אדם הכי שונאים ו-AI הכי טוב בו. אותה ישות מופיעה לעתים קרובות תחת תוויות שונות מעט, והכלי יכול לקבץ אותן.

מצא שורות כפולות והסר אותן, תוך שמירת הגרסה השלמה ביותר של כל אחת.
אחר כך אחד וריאציות של אותה חברה לשם עקבי אחד (למשל "Acme", "ACME Ltd" ו-"acme inc" צריכים כולם להפוך ל-"Acme").
תראה לי רשימה של כל איחוד שעשית כדי שאוכל לאשר אותו.

תמיד בקשו לראות את האיחודים. כאן מתחבאות הטעויות: שתי חברות שונות באמת עם שמות דומים לא צריכות להתאחד, ורק אתם מכירים את העסק מספיק טוב כדי לתפוס את זה. הכלי מציע, אתם מאשרים.

שלב רביעי: מפצלים או מאחדים עמודות

כלים שונים רוצים נתונים בצורה שונה. ה-CRM שלכם אולי רוצה עמודת שם מלא אחת בעוד כלי המייל רוצה פרטי ומשפחה בנפרד. ה-AI מעצב מחדש לפי בקשה:

  • "פצל את עמודת השם המלא לשם פרטי ושם משפחה."
  • "פרק את עמודת הכתובת לרחוב, עיר ומיקוד."
  • "חבר את העמודות הנפרדות של יום, חודש ושנה לתאריך אחד."
  • "צור עמודת מייל נקייה וסמן כל כתובת שאינה בפורמט תקין."

דוגמה אמיתית של לפני ואחרי

הנה איך זה נראה בפועל. לקוח מסר לי ייצוא אנשי קשר של 2,300 שורות לטעינה לכלי מייל חדש, וזה היה בלגן קלאסי.

לפני:

name,company,phone,joined
john smith,Acme,054-1234567,3/4/26
JOHN SMITH ,ACME Ltd,+972541234567,2026-04-03
sara b,beta,(052) 765 4321,April 5 2026
sara b,beta,(052) 765 4321,April 5 2026

ארבע שורות, אבל באמת שני אנשים, עם שלושה פורמטי תאריך, שני פורמטי טלפון, אותיות רישיות מעורבות, כפילות, ושמות חברה לא עקביים.

אחרי (פרומפט בדיקה אחד ועוד פרומפטי הניקוי שלמעלה):

name,company,phone,joined
John Smith,Acme,+972541234567,2026-04-03
Sara B,Beta,+972527654321,2026-04-05

שתי שורות נקיות, פורמט עקבי אחד לכל אורך הדרך, הכפילות נעלמה. מה שהיה שעה של מצמוץ והדבקות לקח בערך שלוש דקות ועוד סקירה מהירה של האיחודים.

שלב חמישי: בודקים ומייצאים (שומרים את המקור)

לפני שאתם סומכים על הקובץ הנקי, מאמתים, ואז מייצאים.

בדיקהאיך
ספירת שורות"כמה שורות לפני ואחרי? כמה כפילויות הסרת?" ודאו שהירידה הגיונית.
איחודיםקראו שוב את רשימת האיחודים וודאו שלא חוברו שתי ישויות שונות.
מדגםפתחו 10 שורות בקובץ הנקי והשוו אותן למקור.
גיבוילעולם אל תדרסו את המקור. שמרו אותו ללא שינוי כדי שתוכלו לחזור על הניקוי אם משהו שגוי.

אחר כך מבקשים: "תן לי את הנתונים הנקיים כקובץ Excel להורדה." שומרים את הפרומפטים כך שהייצוא המבולגן הבא מאותו מקור יתנקה תוך דקות.

ההסתייגויות שצריך לכבד

ניקוי הוא בסיכון נמוך יותר מניתוח כי השינויים גלויים והפיכים, אבל הוא לא נטול סיכון.

  • איחודים שגויים: הכלי יכול לחבר שני רישומים שרק נראים דומים. תמיד סקרו את רשימת האיחודים; זו הבדיקה הכי חשובה.
  • הנחות שקטות: תאריך עמום כמו 3/4/26 יכול להיות 4 במרץ או 3 באפריל. אמרו לכלי באיזה פורמט המקור משתמש כדי שלא ינחש לא נכון על פני כל הקובץ.
  • תיקונים מהוזים: הוא יכול מדי פעם להמציא ערך כדי למלא תא ריק. אמרו לו במפורש להשאיר לא ידועים ריקים במקום לנחש.
  • גודל קובץ: קבצים גדולים מאוד עלולים להיחתך. פצלו ייצואים גדולים ונקו בחלקים.
  • פרטיות: רשימת לקוחות היא בדיוק סוג הנתונים שצריך להיזהר איתו. אל תעלו נתונים מוסדרים או אישיים לכלי צ'אט צרכני. אנונימזו או הסירו שדות מזהים קודם, או השתמשו בכלי ברמה עסקית עם הסכם נתונים. אני מכסה את הקו במאמר האם בטוח להעלות נתונים עסקיים ל-ChatGPT.

מתי ניקוי צריך להפוך לאוטומציה

לנקות קובץ אחד ידנית בחלון צ'אט הוא שימוש מושלם בכלים האלה. אבל הנה הדפוס לשים לב אליו: אם אותו מקור ממשיך לייצר את אותו בלגן כל שבוע, אותו ייצוא עם אותו פורמט תאריך שבור ואותה בעיית כפילות, אתם עושים עבודה זהה שוב ושוב. זה הסימן להפוך לאוטומטי. מערכת קטנה יכולה לקחת את הייצוא הגולמי, להחיל את כללי הניקוי המדויקים שכבר גיבשתם, ולהחזיר קובץ נקי (או לטעון אותו ישר ל-CRM) בלי שתפתחו צ'אט בכלל. אני מתאר בדיוק את המעבר הזה במאמר מתי להפסיק לעשות ידנית ולהפוך לאוטומטי, ואותה לוגיקה מפעילה את הדיווח האוטומטי במאמר איך להפוך דוחות עסקיים לאוטומטיים.

לנקות ידנית בפעמים הראשונות זה המהלך הנכון; זה אומר לכם בדיוק אילו כללים האוטומציה צריכה לאכוף. ברגע שאותו בלגן חוזר, שווה להפוך לאוטומטי. אם אתם רוצים יד בהחלטה אם ניקוי הנתונים שלכם שווה הפיכה לתהליך אמין וחוזר, קבעו שיחה או הגיעו אליי דרך טופס יצירת הקשר, ונסתכל על זה בלי שום לחץ.

#clean up messy data with AI#data cleaning#ChatGPT#spreadsheets#automation

שאלות נפוצות

האם AI באמת יכול לנקות גיליון מבולגן?

כן. מעלים את הקובץ ומתארים את הסטנדרט הרצוי לתאריכים, מספרי טלפון, שמות ואותיות רישיות. הכלי מאחד פורמטים, מסיר כפילויות, מאחד וריאציות של שמות ומפצל או מאחד עמודות. כי הוא מריץ קוד אמיתי על הקובץ, השינויים עקביים בכל השורות.

איך מונעים מ-AI לאחד בטעות שני רישומים שונים?

בקשו מהכלי להראות לכם רשימה של כל איחוד שהוא מציע לפני שהוא מחיל אותו, ואשרו בעצמכם. אתם מכירים את העסק מספיק טוב כדי לזהות שתי חברות שונות באמת עם שמות דומים. הכלי מציע, אתם מחליטים. הסקירה הזו היא בדיקת הניקוי הכי חשובה.

האם AI ינחש ערכים כדי למלא תאים ריקים?

הוא יכול, וזה סיכון. אמרו לו במפורש להשאיר ערכים לא ידועים ריקים במקום להמציא אותם. אותו דבר לגבי תאריכים עמומים: אמרו לכלי באיזה פורמט המקור משתמש (יום קודם או חודש קודם) כדי שלא ינחש לא נכון על פני כל הקובץ.

האם בטוח להעלות את רשימת הלקוחות שלי לניקוי?

רשימת לקוחות היא מידע רגיש. אל תעלו נתונים מוסדרים או אישיים לכלי צ'אט צרכני. אנונימזו או הסירו שדות מזהים קודם, או השתמשו בכלי ברמה עסקית עם הסכם נתונים. אם אתם חייבים לנקות נתוני קשר אמיתיים, זו סיבה חזקה לעשות זאת בצינור פרטי ואוטומטי במקום.

האם לשמור גיבוי של הקובץ המבולגן המקורי?

תמיד. לעולם אל תדרסו את המקור. ייצאו את הנתונים הנקיים כקובץ חדש ושמרו את המקור ללא שינוי, כך שאם איחוד או פרמוט מתברר כשגוי תוכלו לחזור על הניקוי מאפס. סקירת ספירת השורות לפני ואחרי גם מאשרת שכלום לא אבד באופן בלתי צפוי.

להמשך קריאה

על הכותב

יהונתן סעדיה

מהנדס פרילנסר לאוטומציה, אתרים ו-MVP

אני יהונתן סעדיה, מהנדס בכיר שבונה אוטומציה עסקית, אתרים מותאמים ומוצרי MVP לעסקים קטנים ובינוניים בארה"ב, אירופה וישראל. המדריכים האלה נכתבים מתוך עבודה אמיתית עם לקוחות, לא מתיאוריה.

בוא נעבוד יחד

יש לך פרויקט דומה?

ספר לי מה אתה מנסה להפוך לאוטומטי או לבנות, ואומר לך מהי הדרך המהירה והאמינה ביותר ליישם את זה.