یکی از ابزارهای هوش مصنوعی، ساخت تصاویر خلاقانه است که میتواند تصاویری به سبک نقاشی، سه بعدی و واقعگرایانه را خلق کند. این فناوری با قابلیت تشخیص محتوای متن و بازسازی آن به شکل تصاویر در کنار هم، میتواند هربار تصویری را ایجاد کند که هیچ کدام از آنها شبیه به هم و تکراری نیستند. ابزارهای ساخت تصویر ممکن است برای افراد عادی، زیاد کاربردی نباشند؛ اما به افراد حرفهای مانند گرافیستهای سه بعدی که در زمینه ساخت انیمیشن و بازیهای کامپیوتری فعالیت میکنند، کمک میکند تا به ایدههای جدید و خلاقانهای برسند که هیچ کدام تکراری نیستند و هربار کاراکترهای جدید، طراحی کنند. درحال حاظر چندین ابزار هوش مصنوعی خلق تصویر وجود دارد که هرکدام بر اساس دادهها و الگوریتمهای منحصر به فرد خود عمل میکنند و هرکدام نقاط قدرت و ضعف خود را دارند.
در این مقاله قصد داریم تا محبوبترین آنها یعنی Dall-E و Midjourney را با یکدیگر مقایسه کنیم. هوش مصنوعی برای تولید و ویرایش محتوای ویدیویی نیز گزینههای زیادی را پیش روی ما قرار داده است. اگر میخواهید این ابزارها را بیشتر برسی کنید توصیه میکنیم مطالعه محتوای جذاب "ابزارهای هوش مصنوعی برای تولید و ویرایش محتوای ویدیویی" را فراموش نکنید.
هوش مصنوعی(Artificial Intelligence) چیست؟
مفاهیم زیادی را میتوان برای هوش مصنوعی درنظر گرفت، اما بطور خلاصه هوش مصنوعی یا "Artificial Intelligence" یک الگوریتم انتزاعی برای حل مسائل پیچیده است که میتواند بر اساس ایجاد مجموعهای از تجربهها و تمرینهایی که بدست میآورد، برای موضوعات مختلف راه حلهای جدید خلق کند که ما در محتوای "هوش مصنوعی چیست؟" مفصل در مورد این مفهموم صحبت کردهایم. الگوریتم هوش مصنوعی بشدت مشابه الگوریتم تفکر انسانها طراحی شده است و بر همین اساس میتوان گفت که هوش مصنوعی نیز قابلیت تفکر دارد؛ که در علم کامپیوتر به آن "field of computer science and engineering practices for intelligence demonstrated by machines and intelligent agents" گفته میشود. هوش مصنوعی توانایی سیستم ها برای درک، ترکیب و استنتاج اطلاعات است و همین ویژگی هوش مصنوعی را با برنامههای کلاسیک متفاوت میکند.
اگر واضحتر بخواهیم مثال بزنیم، تمام احساساتی که انسان تجربه میکند، مانند احساس غم، شادی، عشق، محبت و... برنامههایی هستند که بر مبنای یک برنامه بزرگتر یعنی الگوریتم انتزاعی پردازش میشوند که با نام منطق فازی هم شناخته میشود. این الگوریتم خود از الگوریتمهای مختلف دیگر از جمله یادگیری با نظارت، یادگیری بدون نظارت و یادگیری تقویتی طراحی شده که همه اینها به نتیجه مطلوب و نهایی کمک میکنند.
البته باید یادآور شویم که الگوریتمهای یادگیری و جمعآوری دادهها نزدیک به 30 نوع هستند که این سه مورد بین آنها مهمترین موارد بشمار میآیند. یکی از ویژگیهای هوش مصنوعی این است که چیزی نمیتواند حواس آن را پرت کند و همین موضوع باعث میشود تا دقت بسیار بالاتری از انسان داشته باشد. همچنین سرعت پردازش بالاتری نسبت به انسان خواهد داشت. هوش انسان در لحظه تنها میتوانند بر روی 3 بُعد از یک مسئله تمرکز و پردازش داشته باشد؛ اما هوش مصنوعی در این مورد محدودیت ندارد و همزمان میتواند هزاران بعد از یک مسئله را پردازش و مقایسه کند؛ همین موضوع برتری دیگر هوش مصنوعی نسبت به انسانها است. در واقع تنها محدودیت هوش مصنوعی، میتواند قدرت پردازشگر مورد استفاده باشد که این مسئله نیز توسط شرکتهای تولید کنند پردازشگر مانند Intel و NVIDIA حل شده است.
همین حالا شرکت NVIDIA یک ابر پردازنده مدل H100 تنها مخصوص پردازشهای هوش مصنوعی طراحی کرده است که قادر است با قدرت GH200 گیگابایت، درست مانند یک سوپر کامپیوتر پردازشهای سنگین هوش مصنوعی را انجام دهد. این پردازندهها دارای 80 گیگابایت RAM داخلی هستند که وقتی بر روی یک اسلات 8 تایی قرار میگیرند، این مقدار به 640 گیگابایت RAM میرسد و از پس سنگینترین پردازشهای گرافیکی و محاسباتی براحتی برمیآیند. نکته جالب دیگر تعداد هستههای پردازنده مرکزی آن است. این پردازنده گرافیکی دارای 14,592 هسته است که با محاسبه بر روی 8 اسلات به 116,736 نیز میرسد. این رسماً یک انقلاب بزرگ در صنعت فناوری است.
قیمت این پردازنده حدود 4000 دلار پیشبینی شده که ممکن است زمان عرضه این قیمت تغییر کند. عربستان صعودی نیز برای ساخت شهر فوق پیشرفته نیوم Neom ، پیشاپیش هزاران عدد از این پردازنده را سفارش داده است. اما این پردازنده تنها مدلی نیست که برای کار با هوش مصنوعی طراحی شده است. هماکنون شرکتهای بزرگی همچون IBM دست به ساخت پردازندههای کوأنتومی زدند که توانایی همزمان میلیاردها پردازش را دارد و یک گزینه عالی برای توسعه اَبَر هوش مصنوعی است. همه این تلاشها برای بهبود کیفیت عملکرد هوش مصنوعی است. اما با توجه به پیشرفتها اخیر، احتمالاً بزودی هوش مصنوعی از هوش انسان پیشی خواهد گرفت و آنقدر قدرتمند خواهد شد که بتواند همزمان چندین ابعاد جهان را در ذهن خود شبیه سازی کند.
هوش مصنوعی مولد چیست؟
هوش مصنوعی مولد به ابزارهای هوش مصنوعی گفته میشود که قادر به خلق هستند و میتوانند با ترکیب میلیونها ایده، محتوای جدید خلق کنند. در صورتی که هوش مصنوعی بطور فیزیکی بتواند در قالب رباتهای مکانیکی حضور داشته باشد، میتواند دست به نوآوریهای بسیار جدید بزند. از این رو هوش مصنوعی میتواند با توجه به پیشبینی و پردازش بیماریها، برای آنها داروهای جدید بسازد. هوش مصنوعی در هر زمینهای که فکر کنید میتواند خلاقانه عمل کند و مولد باشد. کافی است تا براساس یک وظیفه مشخص کدنویسی شود تا بتواند دقیقاً به همان شکل در امور مختلف کمک خلاقانه و مولد داشته باشد. این کدها مانند استعداد ذاتی هر هوش مصنوعی است که به آن اختصاص داده میشود. برای مثال مولد تصویر، مولد ویدیو، مولد محتوای سئو شده، مولد کدهای برنامه نویسی؛ که همگی براساس توضیحات کاربر عمل میکنند.
هوش مصنوعی مولد تصویر چیست؟
هوش مصنوعی مولد تصویر نیز از مدل یادگیری عمیق تولید کننده تصویر استفاده میکند که به اصطلاح به آن موتور تصویرساز یا "Image Engine" گفته میشود. به این ابزار هوش مصنوعی به اصطلاح هوش مصنوعی تصویرساز یا "AI ART Generator" گفته میشود. مولد تصویر با میلیونها تصویر تصویر، میتواند اشیاء درون تصویر را شناسایی کند و حتی کاربرد آنها را یاد بگیرد تا از آنها در ساخت تصویر در جای درست خود استفاده کند. مرحله یادگیری یکی از مراحل بسیار مهم است و همین مرحله است که بین ابزارهای مختلف هوش مصنوعی مولد، تفاوت ایجاد میکند. حتی نحوه پردازش تصاویر، تصاویری که پردازش میشوند، تعداد تصاویر، سبک تصاویر، توضیحات هر تصویر و هر پارامتری در این مرحله تأثیرگذار است.
هوش مصنوعی مولد DALL-E چیست؟
دال-ای (image generator program) یک مدل یادگیری عمیق تولید کننده تصویر با هوش مصنوعی است که توسط OpenAI توسعه یافته است و از شبکههای مولد (GANs) برای تولید تصاویر با کیفیت بالا از روی توضیحات متنی به استفاده میکند. این هوش مصنوعی با مجموعه عظیمی از تصاویر و همچنین با تکنیکهای یادگیری بدون نظارت و یادگیری تقویتی، آموزش داده شده است و توانایی خلق تصاویر جدید با جزئیات بالا را دارد. دال-ای تنها در نسخه GPT-4 Plus قابل استفاده است و برای استفاده از آن باید مبلغ 20 دلار پرداخت کنید. اگر جزء کاربران حرفهای هستید و میخواهید بدون محدودیت از همه امکانات آن استفاده کنید، هزینه کردن برای یک ابزار خوب، میتواند به عملکرد حرفهای شما کمک کند. همچنین نسخه DALL-E 2 و اخرین نسخه یعنی DALL-E 3 هم نیاز به اعتبار دارند. اگر تازه وارد باشید مقداری بونوس اعتبار برای استفاده دارید، اما پس از آن اعتبار شما تمدید نمیشود و باید برای افزایش اعتبار، مبلغی را پرداخت کنید.
هوش مصنوعی مولد Midjourney چیست؟
میدجرنی (AI art generator) کمی زودتر از DALL-E معرفی شد. این هوش مصنوعی تصویرساز، قادر است تا علاوه بر ساخت تصاویر فوقالعاده خلاقانه، از فیلترهای هنری و جلوههای ویژه نیز استفاده کند که منجر به خلق تصاویر هنری و ایجاد تجربهی بصری خاص خود میشود. استفاده از Midjourney نیاز به برنامه Discord دارد برای کار با آن باید مبلغی را پرداخت کنید. اگر بخواهیم فقط در مورد میدجرنی به تنهایی نظر دهیم، میتوان گفت تصاویر ساخته شده با این هوش مصنوعی بسیار خلاقانه و فوقالعاده با جزئیات بالا هستند. Midjourney به صورت تخصصی تمرکز خود را بر روی خلق تصاویر فانتزی و هنری گذاشته و طبیعی است که بتواند به چنین قدرتی در خلق تصویر دست پیدا کند.
بین DALL-E و Midjourney کدام بهتر است؟
اینکه بگوییم کدام یک از هوش مصنوعی خلق تصویر بهتر است،کار دشواری است. هرکدام از این دو هر روز درحال یادگیری و بروزرسانی خود هستند. شاید بتوانیم بگوییم که Midjourney مدتی زودتر طراحی و آموزش داده شده و تجربه بیشتری نسبت به DALL-E دارد. اما از سوی دیگر DALL-E نیز به سرعت در حال بروزرسانی خود است و ممکن است این سرعت بروزرسانی حتی بیشتر از میدجرنی پیش برود. بنابراین نمیتوان هیچ کدام از این دو هوش مصنوعی را برتر از دیگری دانست. مخصوصاً حالا که DALL-E به نسخه سوم خود ارتقاء پیدا کرده است. اما چطور میتوان این دو را با هم مقایسه کرد ؟
یکی از راههای مقایسه دو هوش مصنوعی در هر زمینهای این است که با یک دستور Prompt حرفهای نتیجه نهایی آنها را با هم مقایسه کرد. به مثال زیر توجه کنید:
Prompt #1 : Animated Pixar movie about two motorcyclists
Prompt #2 : A head of a robot hooked up with wires to the ceiling, illuminated by colored lights
Prompt #3 : Spongebob Squarepants painted by Pablo Picasso, oil on canvas
Prompt #4 : Intricate sculpture of a skull
Prompt #5 : Bright summer afternoon, flowing river, lush nature, studio Ghibli style
مقایسه موردی DALL-E و Midjourney
-
اندازه تصویر: Midjourney میتواند با اندازههای مختلف کار کند؛ اما DALL-E تصاویر را فقط در سایز 1024*1024 ایجاد میکند.
-
تصویر ورودی: DALL-E قادر است تا یک تصویر ورودی داشته باشد و روی آن تغییرانی اعمال کند، اما Midjourney قادر به این کار نیست.
-
تصاویر فانتزی: Midjourney در ایجاد تصاویر فانتزی ماهرتر از DALL-E است و گویی یک گرافیست فوقالعاده حرفهای درحال طراحی است. اما DALL-E یک تلاش موفق برای ایجاد تصاویر گرافیکی است که در زمینه تصاویر فانتزی به یادگیری بیشتری نیاز دارد.
-
تشخیص صورت: DALL-E 2 قادر نیست به خوبی اجزای صورت را ایجاد کند. البته این مشکل تا حد زیادی در DALL-E 3 حل شده است. اما در این مورد Midjourney خلاقیت بیشتری به خرج میدهد.
-
تطبیق پذیری: Midjourney توانسته خود را با ژانرهای مختلف سینمایی و استوک علمی سازگار کند، درحالی که DALL-E جذابیت بصری لازم را برای استفاده علمی ایجاد نمیکند. شاید این بخاطر آشنایی Midjourney با ابزارهای علوم است.
-
تصاویر واقعگرایانه: بنظر میرسد Dall-E برای خلق تصاویر کودکانه و ساخت انیمیشن مناسب باشد درحالی که Midjourney میتواند تصاویر واقع گرایانه و حرفهای خلق کند.
جایگزینهای قابل استفاده
متأسفانه برای استفاده از هر دو هوش مصنوعی DALL-E و Midjourney باید مبلغی را پرداخت کنید و نسخه حرفهای آنها استفاده کنید. از طرف دیگر Open-ai کاربران ایرانی را تحریم و محدود کرده است و نمیتوان بصورت مستقیم از آن استفاده کرد؛ اگرچه استفاده از نسخه GTP-3 امکانپذیر است. Midjourney نیز محدودیتهای خاص خود را دارد و همه نمیتوانند از آن استفاده کنند. اما خوشبختانه جایگزینهای مناسبی برای این دو هوش مصنوعی وجود دارد که در ادامه به آنها خواهیم پرداخت.
BING DALL-E
این صفحه یک ابزار اختصاصی برای ایجاد تصاویر خلاقانه است که با همکاری Microsoft و Open-ai راه اندازی شده است و بطور مستقیم از موتور تصویر ساز DALL-E 3 استفاده میکند. در واقع همان DALL-E است اما در قالبی ساده تر و بطور خاص برای ایجاد تصویر بکار میرود. اگرچه کار با BING DALL-E بطور کامل رایگان نیست، اما در ابتدا به شما مقداری بونوس میدهد تا بتوانید بصورت رایگان با آن کار کنید. همچنین بصورت هفتگی نیز مقداری بونوس به شما خواهد داد. اگر بتوانید برای استفاده از این ابزار برنامه ریزی درستی داشته باشید، نیازی به خرید اعتبار بیشتر نیست. علاوه براین بخشهای مختلفی در این صفحه وجود دارد که با انجام بعضی از فعالیتها میتوانید بونوس رایگان دریافت کنید. برای مثال شرکت در نظرسنجی و یا بازدید از صفحه فروشگاه مایکروسافت و... . برای استفاده از BING DALL-E میتوانید به آدرس bing.com/create مراجعه کنید.
Stable Diffusion
استیبل دیفیوژن (image-generating machine learning model) بسیار مشابه DALL-E عمل میکند اما نمیتوان گفت که دقیقاً عملکرد DALL-E را دارد. ویژگی منحصر بفرد این هوش مصنوعی، رایگان بودن آن است. البته مشخص نیست تا چه مدت حالت رایگان آن در دسرس کاربران باشد، اما فعلاً میتوان از آن با خیال راحت استفاده کرد. البته کار با این ابزار نیاز به توضیحات بیشتری در جزئیات Prompt دارد تا بتوان به هدف مورد رسید. در مثال زیر من مجبور شدم عبارت lowpoly را به آن اضافه کنم تا به استایل انیمیشن نزدیک شود.
Imagine
یکی دیگر از مولدهای تصویر ساز imagine.art است که میتواند تصاویر واقع گرایانه بسیار زیبایی را ایجاد کند. عملکرد این ابزار مشابه Midjourney است و بصورت تخصصی بر روی خلق و ویرایش تصویر کار میکند و کار کردن با آن بسیار لذتبخش است. این ابزار گزینههای بسیار زیادی را در اختیار کاربر قرار میدهد. البته بیشتر این گزینهها شامل هزینه میشود؛ اما در حالت رایگان میتوانید هر نوع تصاویری را در نسبت اندازه 1:1 ایجاد کنید. Imagine دارای 28 موتور تصویرساز است که 8 مورد از آنها رایگان در دسترس است. همچنین 86 استایل آماده دارد که 76 مورد آن رایگان است.
Gencraft
gencraft.com یکی دیگر از ابزارهای هوش مصنوعی مولد است که توانایی بسیار خوبی در ساخت تصاویر خلاقانه دارد. اگرچه استفاده از این ابزار و موتور Image 2 رایگان است، اما امکاناتی نظیر استفاده از موتورهای ART 2 - Image 2 Advanced و Balloon شامل هزینه است. ظاهراً این سه موتور اضافی قدرت بسیار بیشتری نسبت به حالت رایگان دارند. همچنین در نسخه پولی شما به آپلود تصویر نیز دسترسی خواهید داشت که به کمک آن میتوانید تصاویر خلق شده را با تصویری که آپلود میکنید، ترکیب کنید.
Freepik
این ابزار نیز کیفیت بسیار خوبی را ارائه میدهد. میتوان گفت خلاقیت Freepik چیزی بین DALL-E و Midjourney است. اگرچه این هوش مصنوعی رایگان نیست، اما روزانه به شما 40 بونوس رایگان اعتبار میدهد که معادل 40 تصویر است که همین تعداد حتی برای افراد حرفهای، کافی بنظر میرسد. خوشبختانه به غیر از محدودیت اعتبار، همهی امکانات Freepik رایگان و قابل استفاده است.
سخن پایانی
توجه داشته باشید که اگرچه هوش مصنوعی ChatGTP توانایی درک همه زبانها را دارد، اما از آنجا که زبان اصلی برنامهنویسی انگلیسی است و برنامه نویسان هم براساس زبان انگلیسی درک هوش مصنوعی را طراحی میکنند، اما بهتر است Prompt های شما به زبان انگلیسی باشد. نکته مهم دیگر این است که هرچقدر دستورات Prompt شما جزئیات بیشتری داشته باشد، هوش مصنوعی با دید بسیار واضحتری تصویر شما را ایجاد میکند. نمیتوان انتظار داشته که بدون جزئیات دقیق، خروجی خوبی دریافت کنید. بنابراین تا جایی که میتوانید به جزئیات دقت زیادی داشته باشید. در محتوای "جایگزین های هوش مصنوعی ChatGPT" میتوانید با جایگزینهای این هوش مصنوعی آشنا شوید.
DALL-E و Midjourney هر دو از بهترین مولدهای تصویر هستند. جای تعجبی هم ندارد که رایگان نیستند و باید برای استفاده از آنها پول پرداخت کنیم. جایگزینها نیز ممکن است کار را تا حدود زیادی انجام دهند، اما هنوز به کیفیت DALL-E و Midjourney نمیرسند. البته مولدهای تصویر بیشتر مناسب گرافیستها و طراحان سه بعدی است و برای کاربران دیگر آنقدر ضروری نیست که نگران استفاده از جایگزینها باشند.
وقتی از کیفیت صحبت میکنیم، واقعاً جای بحث و مقایسه دارد. برای مثال هوش مصنوعی craiyon نیز برای خلق تصویر راه اندازی شده است، اما تصاویر آن اصلاً قابل قبول و حتی قابل مقایسه با گزینههای دیگر نیست. همان ابتدا میتوان LowPoly بودن craiyon را کاملاً حس کرد، در صورتی که شما از آن تصویر واقع گرایانه درخواست کردهاید. بنابراین توصیه میشود سمت craiyon نروید.