אימון מודל LORA עצמי במודל FLUX ליצירת תמונות ריאליסטיות

אנידור חקק

ספטמבר 17, 2024

בעידן שבו אינטליגנציה מלאכותית מתקדמת בצורה חסרת תקדים, מודלים כמו Flux מאפשרים יצירת תמונות ריאליסטיות ברמה הגבוהה ביותר.   סקרנו פה כבר כמה כלים של תמונות בינה מלאכותית שבהחלט מקלים על חיינו. אחד החידושים המרתקים שנולדו בחודשים האחרונים הוא היכולת באימון מודל עצמי או לאמן מודל על בסיס סטייל מסוים.

אחד הכלים המתקדמים והעוצמתיים ביותר שפותחו לאחרונה בתחום זה הוא LoRA (Low-Rank Adaptation), שמאפשר למשתמשים להכניס את דמותם לתוך מודל Flux. הדבר פותח דלתות חדשות ביצירתיות ומאפשר לכל אחד לראות את עצמו בתרחישים שונים – כדמות מהאגדות, גיבור-על, אסטרונאוט, או בכל סצנה אחרת שניתן לדמיין.

במאמר זה נבחן כיצד ניתן לבצע אימון למודל Flux LoRA מותאם אישית, ונכיר את הכלים והשיטות השונות לביצוע האימון. נתחיל בסקירה של כלים פופולריים כמו Astria, Fal.ai, ו-Replicate.com, ונמשיך עם טיפים לשיפור תהליך האימון להשגת תוצאות מרשימות.

מהו מודל LoRA ולמה הוא חשוב?

מודל LoRA הוא כלי מתוחכם שמאפשר התאמת מודל אינטליגנציה מלאכותית לרמות נמוכות יותר של נתונים, תוך שמירה על רמת דיוק גבוהה במיוחד. עבור יצירת תמונות ריאליסטיות, LoRA מאפשר למשתמשים להוסיף נתונים אישיים – כגון תמונות הפנים שלהם – ולבצע התאמות כך שהתוצאות יתאימו לדמותם בצורה אותנטית.

אחת השיטות הבולטות שבהן נעשה שימוש ב-LoRA היא באמצעות מודל Flux, מודל ליצירת תמונות מתקדמות באיכות שוות ערך למודלים מובילים אחרים בשוק, כמו MidJourney. באמצעות LoRA ניתן לייצר תוצאות מרשימות ומדויקות יותר בפרק זמן קצר יותר, כל זאת תוך שימוש בכמות קטנה יחסית של נתוני אימון.

איך היינו יוצרים תמונות לפי מודל לפני LORA?

עד היום, יצירת תמונות מותאמות אישית עם דמויות ריאליסטיות בעזרת בינה מלאכותית הייתה נעשית בעיקר באמצעות כלים כמו Face Swap, שמאפשרים להחליף פנים בין דמויות בתמונות שונות, או באמצעות תכונת SREF בכלי המדהים של מידג'רני. תכונת SREF היא אפשרות שמאפשרת להשתמש בתמונות קיימות כ"הפניה סגנונית" (Style Reference) כדי להשפיע על הסגנון האסתטי של התמונות שמידג'רני מייצר. ניתן להוסיף התייחסויות סגנוניות באמצעות הפרמטר `–sref` יחד עם כתובת URL של התמונה הרצויה, וכך להכניס מאפייני סגנון מסוים לתמונה החדשה שנוצרת.

כאשר משתמשים ב-SREF, ניתן לשלב טקסט בפנייה כדי לחזק את הסגנון הרצוי. הפרמטר `–sref` מתאים להוספת סגנונות שונים, כגון צבעים, טקסטורות או אווירה כללית של תמונה מסוימת, אך הוא אינו תומך בשימוש בתמונות בלבד – כלומר, תמיד יש לכלול טקסט בתיאור ההנחיה יחד עם ההפניה הסגנונית. לדוגמה, ניתן לבקש ממידג'רני לייצר תמונה המבוססת על תיאור טקסטואלי בשילוב של מספר הפניות סגנוניות שיציגו סגנונות אמנותיים שונים מתמונות אחרות, מה שמוסיף מימד ויזואלי ייחודי לתוצאה.

השימוש ב-SREF מאפשר גמישות אמנותית רבה, אך עם זאת, התוצאות עדיין מוגבלות לעיבוד כללי של הסגנון ולא בהכרח מאפשרות יצירת תוצאות ריאליסטיות מדויקות, כפי שמתקבלות בשיטות אימון מתקדמות כמו LoRA.

 

לפני שנצלול לתהליך האימון, חשוב להבין את המושגים המרכזיים שעומדים בבסיס הטכנולוגיה: Flux ו-LoRA. Flux הוא מודל מתקדם ליצירת תמונות באמצעות בינה מלאכותית, שפותח על ידי Black Forest Labs, והוא נחשב לאחד מהכלים המובילים בתחום ליצירת תמונות ריאליסטיות ומגוונות. LoRA (Low-Rank Adaptation) היא טכניקה חדשנית המאפשרת לבצע כוונון עדין (fine-tuning) של מודלים גדולים כמו Flux, בצורה יעילה וחסכונית במשאבים. בזכות LoRA, ניתן להתאים את מודל Flux לצרכים ולמשימות ספציפיות, כגון סגנון עיצובי מסוים או דמות מסוימת, ולייצר תוצאות מדויקות ומותאמות אישית.

 2 כלים מומלצים לאימון Flux LoRA

1. שימוש בכלי של אסטריה
2. פלטפורמת Fal.ai

יצירת DATASET של תמונות לאימון LORA

הבסיס לכל אימון מודל, הוא מאגר תמונות שמהן תוכל ללמוד המכונה.

כאשר אנו מתמקדים באימון מודלים מבוססי בינה מלאכותית כמו Flux LoRA, איסוף וטיוב של מאגר הנתונים (dataset) הוא שלב קריטי להצלחה בתהליך האימון. בחירה נכונה של התמונות במאגר הנתונים משפיעה באופן משמעותי על הדיוק, האיכות, והגמישות של המודל בעת יצירת התוצאות. כדי להבטיח אימון איכותי ותוצאות אופטימליות, יש להקפיד על מספר דגשים חשובים במהלך יצירת מאגר התמונות.

הדבר הראשון שיש לוודא הוא שהן כוללות רזולוציה גבוהה – התמונות צריכות להיות בגודל מינימלי של 1024×1024 פיקסלים. רזולוציה נמוכה עשויה לפגוע בדיוק האימון וביכולות המודל לייצר תוצאות חדות ומדויקות. אם יש לך תמונות ברזולוציה נמוכה, מומלץ להשתמש בכלים של שיפור רזולוציה (AI Upscalers) כדי להגדיל את חדות התמונות.

בנוסף, יש לשים לב שהיחס בין הגובה לרוחב של כל תמונה יהיה 1:1 (פורמט ריבועי), כדי להתאים לצרכי המודל. במקרים בהם התמונות אינן בריבוע, יש לעבד אותן מראש באמצעות כלים ייעודיים כמו birme, אשר מאפשרים לחתוך ולשמור על פורמט אחיד.

איכות התמונות חשובה לא פחות מהרזולוציה. יש להימנע מתמונות מטושטשות או עם חלקים מעוותים. חדות ברורה של כל פרט בתמונה היא הכרחית, וחשוב לבדוק אם יש אזורים מטושטשים או חשוכים שניתן לשפר באמצעות כלים כמו פוטושופ לשיפור תאורה, או AI לשיפור חדות. בנוסף, כדאי לשים לב שהנושא המרכזי של התמונה נמצא במרכז ומבודד ככל האפשר מהרקע. רצוי תמונות שבהן רק הדמות הרצויה מופיעה ללא דמויות ואלמנטים נוספים.

יצירת DATASET של תמונות עבור LORA

גיוון: על מנת לקבל גמישות באימון ולמנוע תוצאות חד-גוניות, מומלץ לבחור במגוון רחב של תמונות המציגות את הנושא מזוויות שונות, בתאורות משתנות, ואפילו עם לבוש או רקעים שונים. גיוון זה חשוב במיוחד כדי לאפשר למודל לבצע הכללות מדויקות יותר ולהיות גמיש יותר במצבים שונים. אך למרות חשיבות הגיוון, יש להקפיד על איכות על פני כמות. גם מאגר של 10-15 תמונות איכותיות יכול להיות יעיל יותר ממאגר גדול הכולל תמונות בעלות איכות ירודה. אם יש תמונה שאינה עומדת בסטנדרט הנדרש, עדיף לתקן אותה או להחליף אותה בתמונה איכותית יותר.

לסיכום, יצירת מאגר תמונות איכותי ומגוון הוא המפתח לאימון מוצלח של מודל Flux LoRA. שילוב של רזולוציה גבוהה, חדות, מיקוד בנושאים, גיוון בכיוונים ובתאורה, והוספת כיתובים מדויקים (בנושא זה יש גישות חלוקות וראיתי גם תוצרים מעולים ללא הגדרה של כיתוב לתיאור התמונה), יבטיחו שהתוצאות יהיו מיטביות ויעמדו בסטנדרטים גבוהים של ריאליזם ודיוק.

אימון מודל לורה בתוכנת ASTRIA ליצירת תמונות ריאליסטיות

אסטריה, פלטפורמה ישראלית מתקדמת ליצירת תמונות באמצעות בינה מלאכותית, מאפשרת למשתמשים לאמן מודלים מותאמים אישית באמצעות LoRA (Low-Rank Adaptation). המערכת של אסטריה מציעה מגוון מודלים קוד פתוח, כולל Flux, המאפשרים יצירה של תמונות ברמה גבוהה מאוד, והפלטפורמה מספקת חוויית משתמש נוחה וגמישה במיוחד.

לאחר פתיחת חשבון, עליכם ליצור FineTune חדש (נמצא תחת TUNES)

אימון FLUX בתוכנת אסטריה

כדי לאמן מודל LoRA על בסיס Flux, תחילה יש להיכנס לאתר אסטריה וליצור חשבון. לאחר מכן, מתחילים בתהליך האימון באמצעות העלאת מאגר נתונים (DATA SET) הכולל תמונות מגוונות (בערך 30 תמונות). חשוב מאוד שכל תמונה תהיה ממוקדת בנושא מרכזי, ושמידות התמונות יהיו בפורמט ריבועי (1:1) וברזולוציה של 1024×1024 פיקסלים לפחות. בעת העלאת הנתונים יש לוודא שהפרמטרים הנכונים נבחרים, במיוחד בתהליך הגדרת המודל, בו נבחר Flux כמודל הבסיס ו-LoRA כסוג המודל.

אסטריה דורשת בחירת טריגר (Token), מילה ייחודית שאין לה משמעות באנגלית, שתשמש להפעלת המודל שאומן בכל פעם שמבקשים לייצר תמונה עם התוצאות שלו. טריגר זה נכתב בפרומפט יחד עם התיאור של התמונה שתרצו ליצור, מה שמאפשר לאסטריה לזהות ולהשתמש במודל שהותאם לדמותכם או לנושא שבחרתם.  להגדיר טריגר של צירוף אותיות חסר משמעות כלשהו כמו SKS ואז בכל פרומפט לרשום אותו והמערכת תדע שהכוונה ללורה הספציפית שיצרתי.

אימון מודל LoRA באסטריה הוא תהליך איטי יחסית, ונמשך בין 3 ל-4 שעות. עם זאת, ניתן לשמור את המודל ולהוריד אותו לעבודה לוקאלית במחשב האישי. אחת המגבלות של אסטריה היא שמירה על המודלים לתקופה מוגבלת של 30 ימים בלבד, ולאחר מכן הם נמחקים אלא אם כן משלמים דמי אחסון חודשיים סמליים (1.5 דולר). למרות הזמן והעלויות, התוצאות שהפלטפורמה מספקת הן לרוב מרשימות ביותר, עם דיוק וגמישות ביצירת דמויות מורכבות וסצנות ריאליסטיות.

לאחר סיום האימון, תוכלו לגשת ללשונית Tunes בפלטפורמה ולבחור את הלורה שאימנתם. בשלב זה, ניתן ליצור תמונות חדשות על ידי הזנת פרומפטים יחד עם מילת הטריגר. הפלטפורמה מאפשרת גם גישה לאפשרויות מתקדמות כמו שינוי מימדי התמונה, התאמת מספר הצעדים (ברירת המחדל היא 50) ופרמטרים נוספים שמאפשרים לשלוט ברמת הדיוק והמורכבות של התוצאה הסופית.

בסופו של דבר, אסטריה מציעה כלי ורסטילי ומתקדם לאימון מודלים ליצירת תמונות מותאמות אישית. השימוש ב-LoRA על Flux בפלטפורמה מאפשר למשתמשים ליצור דמויות וסצנות מורכבות ומדויקות, עם יכולת להתאים את המודל לפי הצרכים הספציפיים שלהם.

דגשים נוספים שיעזרו לייצר תמונות טובות:

  • חשוב להגדיר מה אני מאמן (גבר/אשה/style וכד')
  • CFG=3
  • צעדים – 31
  • לשנות בפרומפט ל- FLUX 1.2 או ל – 1.1 ולבדוק את התוצרים שלכם  (בברירת המחדל מוגדר lora 1.0).

 

פלטפורמת Fal.ai

פלטפורמת Fal.ai מאפשרת תהליך פשוט וידידותי יותר למשתמשים שרוצים לאמן מודל Flux LoRA מותאם אישית. לאחר יצירת חשבון בפלטפורמה, ניתן להעלות בין 12 ל-15 תמונות אישיות, להגדיר את מילת המפתח לאימון, ולהתחיל בתהליך שנמשך כ-25-30 דקות. בסיום התהליך, ניתן להוריד קובץ שניתן להשתמש בו ליצירת תמונות מותאמות אישית בפלטפורמה.

אחת היתרונות הבולטים בשיטה זו היא פשטות התהליך והיכולת להשיג תוצאות בזמן קצר יחסית. Fal.ai מציעה גם ממשק נוח ליצירת תמונות באמצעות המודל שאומן, והמחירים לשימוש בשירות הם נוחים, עם עלות ממוצעת של 0.075 דולר לכל יצירת תמונה.

כדי לאמן מודל LoRA באתר FAL.AI, יש לבצע מספר שלבים פשוטים שיאפשרו לכם ליצור מודלים מותאמים אישית ולקבל תוצאות ריאליסטיות באיכות גבוהה.

שלב 1: הרשמה לאתר FAL.AI
ראשית, עליכם להירשם לאתר FAL.AI. ההרשמה מתבצעת באמצעות חשבון GitHub, וניתן ליצור חשבון GitHub בקלות אם אין לכם אחד. לעיתים ישנם קרדיטים חינמיים שמוצעים, אך סביר שתצטרכו לרכוש מספר קרדיטים על מנת להתחיל. כדאי לטעון לחשבון שלכם לפחות 10-20 דולר, כאשר 5 דולר מספיקים לכ-1,000 צעדי אימון.

שלב 2: בחירת המודל
לאחר ההרשמה, כנסו ל-GAL (Model Gallery) ובחרו במודל FLUX Realism LoRA – זהו מודל Flux מותאם במיוחד ליצירת פורטרטים ריאליסטיים.

שלב 3: קביעת הגדרות האימון
כעת בחרו ב"אימון מהיר" (Quick Training) כדי להתחיל את התהליך. בהגדרות האימון, יש להגדיר מספר צעדי אימון – מומלץ לבחור ב-1,000 צעדים עבור תוצאות אופטימליות.

שלב 4: הוספת מילות טריגר (אופציונלי ולא קריטי ב- FAL כמו באתר אסטריה)
אם תרצו, ניתן להרחיב את ההגדרות המתקדמות ולהוסיף מילת טריגר. מילת הטריגר היא מילה שתשולב בפרומפט ותאפשר למודל לזהות את הדמות או הסגנון האמנותי עליו אומנתם. לדוגמה, אם אתם מאמנים את המודל על תמונות אישיות שלכם, ניתן להשתמש בשם שלכם כמילת טריגר. עם זאת, השימוש בטריגר הוא אופציונלי, ולא חובה עבור אימון בסיסי.

שלב 5: קביעת פרמטרים
בשלב זה, יש להגדיר את מספר הצעדים הנדרש כדי ליצור את התמונה – המינימום הוא 35 צעדים, אך ניתן להגדיל את המספר הזה עד 48 על מנת לשפר את איכות התוצאה. כמו כן, יש להגדיר את Scale (עוצמת ה-LoRA), המאפשרת לקבוע כמה התוצאה תהיה דומה למקור – אם התוצאה אינה מדויקת מספיק, ניתן להגדיל את הערך הזה. Guidance Scale מומלץ להשאיר בערך נמוך, כדי לאפשר חופש יצירתי לכלי ולהימנע מייצוגים נוקשים מדי של התמונה.

שלב 6: יצירת תמונות
לאחר שסיימתם את ההגדרות, כל שנותר לעשות הוא לבחור כמה תמונות תרצו ליצור, להכניס את הפרומפט שלכם, וללחוץ על Run. תהליך האימון עשוי לקחת מספר דקות עד שעות, בהתאם למספר הצעדים וההגדרות שקבעתם.  באמצעות השלבים הללו תוכלו לאמן בקלות את מודל ה-LoRA שלכם וליצור תמונות מותאמות אישית באיכות גבוהה דרך FAL.AI.

 

טיפים לשיפור התוצאות באימון מודל Flux LoRA

בזמן שאימון מודלים מתבצע בצורה יחסית פשוטה, ישנם מספר גורמים שמשפיעים על התוצאות. הנה כמה טיפים חשובים לשיפור תהליך האימון:

1. השתמשו בתמונות בסגנון אחיד – שילוב של תמונות ריאליסטיות עם תמונות בסגנון אנימה או קריקטורה יוצר תוצאות פחות רצויות עם מראה מלאכותי מדי. חשוב להקפיד על סגנון אחיד של תמונות לצורך האימון.

2. כיתוב טבעי – כתיבת כיתובים בשפה טבעית ולא כתגים מופרדים באמצעות פסיקים מביאה לתוצאות טובות יותר. מומלץ לתאר את התמונות באופן מילולי כאילו אתם מסבירים אותן לאדם אחר.

3. גודל סט נתונים קטן יותר עדיף – במקום להשתמש בכמות גדולה של תמונות, סט קטן יחסית של 20-30 תמונות יכול להביא לתוצאות טובות יותר. סטים גדולים מדי עלולים להגביל את גמישות המודל.

4. רזולוציה של 512×512 – אימון המודל ברזולוציה של 512×512 מאפשר לקצר את זמן התהליך ולהוזיל עלויות, כאשר התוצאות נותרות איכותיות למדי.

5. שימוש בכלי ליצירת פקודות AI – שימוש בכלים כמו Claude כדי לייעל את הפקודות ליצירת התמונות עשוי להביא לתוצאות יצירתיות ואסתטיות יותר.

 

מודל Flux LoRA מציע אפשרויות יצירתיות מרהיבות ליצירת תמונות מותאמות אישית בצורה ריאליסטית ביותר. באמצעות הכלים שהוזכרו – ASTRIA, Fal.ai – כל אחד יכול לאמן מודל אישי ולהפיק תמונות מרשימות בתוך פרק זמן קצר. בעזרת הטיפים שהובאו כאן, ניתן להשיג תוצאות איכותיות ויצירתיות אף יותר. טכנולוגיית LoRA פותחת עידן חדש בעולם היצירה הדיגיטלית, ומאפשרת לכל אחד להכניס את עצמו לכל תרחיש דמיוני או אמיתי.

צריכים תוכן שיווקי ?

מאמרים נוספים

כתיבת תוכן

יולי 30, 2024

רעיונות ליצירת תוכן איכותי באתר

AI

פברואר 11, 2024

מדריך השוואה בין מידג'רני ללאונרדו, לדאלי, לסטייבל

גוגל ג'מיני

ינואר 25, 2024

גוגל ג'מיני GEMINI – מודל הבינה המלאכותית של גוגל

בינה מלאכותית משנה את עולם השיווקי

נובמבר 15, 2023

איך בינה מלאכותית משנה את עולם השיווק הדיגיטלי?

Google bard

אוגוסט 2, 2023

צ'אט גוגל בארד (Google Bard) הוא מעכשיו גוגל Gemini – איך משתמשים בצ'אט AI של גוגל?

כותרת מנצחת

פברואר 21, 2023

איך תבחרו כותרת מנצחת שכולם יקליקו עליה?

ינואר 24, 2023

מחוללי תמונות AI בינה מלאכותית ליצירת אומנות מטקסט

מדריך Chat GPT

ינואר 15, 2023

ChatGPT – תוכן AI הפך ללגיטימי

ביטויי זנב ארוך

דצמבר 18, 2022

מה הם ביטויי זנב ארוך ולמה הם חשובים לSEO

נובמבר 16, 2022

תוכן איכותי לאתרים

נובמבר 16, 2022

שיווק ויראלי

נובמבר 16, 2022

שיווק ברשתות חברתיות

נובמבר 16, 2022

שיווק בפייסבוק כי פשוט חייבים להיות שם!

קידום בגוגל | קידום אתרים בגוגל

קידום אתר באינטרנט

נובמבר 16, 2022

פרסום עסקים

פרסום בגוגל | קידום ממומן – AD תוכן ומדיה

נובמבר 16, 2022

ניהול תוכן | עריכת תוכן

נובמבר 16, 2022

מחקר מילות מפתח

נובמבר 16, 2022

כתיבת תוכן לאתרי אינטרנט