هوش مصنوعی Dall-E یا midjourney! کدام بهتر است؟

هوش مصنوعی Dall-E   یا  midjourney! کدام بهتر است؟
هوش مصنوعی Dall-E   یا  midjourney! کدام بهتر است؟
8 ماه پیش

یکی از ابزارهای هوش مصنوعی، ساخت تصاویر خلاقانه است که می‌تواند تصاویری به سبک نقاشی، سه بعدی و واقع‌گرایانه را خلق کند. این فناوری با قابلیت تشخیص محتوای متن و بازسازی آن به شکل تصاویر در کنار هم، می‌تواند هربار تصویری را ایجاد کند که هیچ کدام از آنها شبیه به هم و تکراری نیستند. ابزارهای ساخت تصویر ممکن است برای افراد عادی، زیاد کاربردی نباشند؛ اما به افراد حرفه‌ای مانند گرافیست‌های سه بعدی که در زمینه ساخت انیمیشن و بازی‌های کامپیوتری فعالیت می‌کنند، کمک می‌کند تا به ایده‌های جدید و خلاقانه‌ای برسند که هیچ کدام تکراری نیستند و هربار کاراکترهای جدید، طراحی کنند. درحال حاظر چندین ابزار هوش مصنوعی خلق تصویر وجود دارد که هرکدام بر اساس داده‌ها و الگوریتم‌های منحصر به فرد خود عمل می‌کنند و هرکدام نقاط قدرت و ضعف خود را دارند.

در این مقاله قصد داریم تا محبوب‌ترین آنها یعنی Dall-E و Midjourney را با یکدیگر مقایسه کنیم. هوش مصنوعی برای تولید و ویرایش محتوای ویدیویی نیز گزینه‌های زیادی را پیش روی ما قرار داده است. اگر می‌خواهید این ابزارها را بیشتر برسی کنید توصیه می‌کنیم مطالعه محتوای جذاب "ابزارهای هوش مصنوعی برای تولید و ویرایش محتوای ویدیویی" را فراموش نکنید.

 

هوش مصنوعی(Artificial Intelligence) چیست؟

مفاهیم زیادی را می‌توان برای هوش مصنوعی درنظر گرفت، اما بطور خلاصه هوش مصنوعی یا "Artificial Intelligence" یک الگوریتم انتزاعی برای حل مسائل پیچیده است که می‌تواند بر اساس ایجاد مجموعه‌ای از تجربه‌ها و تمرین‌هایی که بدست می‌آورد، برای موضوعات مختلف راه حل‌های جدید خلق کند که ما در محتوای "هوش مصنوعی چیست؟" مفصل در مورد این مفهموم صحبت کرده‌ایم. الگوریتم هوش مصنوعی بشدت مشابه الگوریتم تفکر انسان‌ها طراحی شده است و بر همین اساس می‌توان گفت که هوش مصنوعی نیز قابلیت تفکر دارد؛ که در علم کامپیوتر به آن "field of computer science and engineering practices for intelligence demonstrated by machines and intelligent agents" گفته می‌شود. هوش مصنوعی توانایی سیستم ها برای درک، ترکیب و استنتاج اطلاعات است و همین ویژگی هوش مصنوعی را با برنامه‌های کلاسیک متفاوت می‌کند.

اگر واضح‌تر بخواهیم مثال بزنیم، تمام احساساتی که انسان تجربه می‌کند، مانند احساس غم، شادی، عشق، محبت و... برنامه‌هایی هستند که بر مبنای یک برنامه بزرگ‌تر یعنی الگوریتم انتزاعی پردازش می‌شوند که با نام منطق فازی هم شناخته می‌شود. این الگوریتم خود از الگوریتم‌های مختلف دیگر از جمله یادگیری با نظارت، یادگیری بدون نظارت و یادگیری تقویتی طراحی شده که همه اینها به نتیجه مطلوب و نهایی کمک می‌کنند.

البته باید یادآور شویم که الگوریتم‌های یادگیری و جمع‌آوری داده‌ها نزدیک به 30 نوع هستند که این سه مورد بین آنها مهم‌ترین موارد بشمار می‌آیند. یکی از ویژگی‌های هوش مصنوعی این است که چیزی نمی‌تواند حواس آن را پرت کند و همین موضوع باعث می‌شود تا دقت بسیار بالاتری از انسان داشته باشد. همچنین سرعت پردازش بالاتری نسبت به انسان خواهد داشت. هوش انسان در لحظه تنها می‌توانند بر روی 3 بُعد از یک مسئله تمرکز و پردازش داشته باشد؛ اما هوش مصنوعی در این مورد محدودیت ندارد و همزمان می‌تواند هزاران بعد از یک مسئله را پردازش و مقایسه کند؛ همین موضوع برتری دیگر هوش مصنوعی نسبت به انسان‌ها است. در واقع تنها محدودیت هوش مصنوعی، می‌تواند قدرت پردازشگر مورد استفاده باشد که این مسئله نیز توسط شرکت‌های تولید کنند پردازشگر مانند Intel و NVIDIA حل شده است.

هوش مصنوعی(Artificial Intelligence) چیست؟

همین حالا شرکت NVIDIA یک ابر پردازنده مدل H100 تنها مخصوص پردازش‌های هوش مصنوعی طراحی کرده است که قادر است با قدرت GH200 گیگابایت، درست مانند یک سوپر کامپیوتر پردازش‌های سنگین هوش مصنوعی را انجام دهد. این پردازنده‌ها دارای 80 گیگابایت RAM داخلی هستند که وقتی بر روی یک اسلات 8 تایی قرار می‌گیرند، این مقدار به 640 گیگابایت RAM می‌رسد و از پس سنگین‌ترین پردازش‌های گرافیکی و محاسباتی براحتی برمی‌آیند. نکته جالب دیگر تعداد هسته‌های پردازنده مرکزی آن است. این پردازنده گرافیکی دارای 14,592 هسته است که با محاسبه بر روی 8 اسلات به 116,736 نیز میرسد. این رسماً یک انقلاب بزرگ در صنعت فناوری است.

هوش مصنوعی(Artificial Intelligence) چیست؟

قیمت این پردازنده حدود 4000 دلار پیش‌بینی شده که ممکن است زمان عرضه این قیمت تغییر کند. عربستان صعودی نیز برای ساخت شهر فوق پیشرفته نیوم Neom ، پیشاپیش هزاران عدد از این پردازنده را سفارش داده است. اما این پردازنده تنها مدلی نیست که برای کار با هوش مصنوعی طراحی شده است. هم‌اکنون شرکت‌های بزرگی همچون IBM دست به ساخت پردازنده‌های کوأنتومی زدند که توانایی همزمان میلیاردها پردازش را دارد و یک گزینه عالی برای توسعه اَبَر هوش مصنوعی است. همه این تلاش‌ها برای بهبود کیفیت عملکرد هوش مصنوعی است. اما با توجه به پیشرفت‌ها اخیر، احتمالاً بزودی هوش مصنوعی از هوش انسان پیشی خواهد گرفت و آنقدر قدرتمند خواهد شد که بتواند همزمان چندین ابعاد جهان را در ذهن خود شبیه سازی کند.

هوش مصنوعی(Artificial Intelligence) چیست؟

 

هوش مصنوعی مولد چیست؟

هوش مصنوعی مولد به ابزارهای هوش مصنوعی گفته می‌شود که قادر به خلق هستند و می‌توانند با ترکیب میلیون‌ها ایده، محتوای جدید خلق کنند. در صورتی که هوش مصنوعی بطور فیزیکی بتواند در قالب ربات‌های مکانیکی حضور داشته باشد، می‌تواند دست به نوآوری‌های بسیار جدید بزند. از این رو هوش مصنوعی می‌تواند با توجه به پیشبینی و پردازش بیماری‌ها، برای آنها داروهای جدید بسازد. هوش مصنوعی در هر زمینه‌ای که فکر کنید می‌تواند خلاقانه عمل کند و مولد باشد. کافی است تا براساس یک وظیفه مشخص کدنویسی شود تا بتواند دقیقاً به همان شکل در امور مختلف کمک خلاقانه و مولد داشته باشد. این کدها مانند استعداد ذاتی هر هوش مصنوعی است که به آن اختصاص داده می‌شود. برای مثال مولد تصویر، مولد ویدیو، مولد محتوای سئو شده، مولد کدهای برنامه نویسی؛ که همگی براساس توضیحات کاربر عمل می‌کنند.

 

هوش مصنوعی مولد تصویر چیست؟

هوش مصنوعی مولد تصویر نیز از مدل یادگیری عمیق تولید کننده تصویر استفاده می‌کند که به اصطلاح به آن موتور تصویرساز یا "Image Engine" گفته می‌شود. به این ابزار هوش مصنوعی به اصطلاح هوش مصنوعی تصویرساز یا "AI ART Generator" گفته می‌شود. مولد تصویر با میلیون‌ها تصویر تصویر، می‌تواند اشیاء درون تصویر را شناسایی کند و حتی کاربرد آنها را یاد بگیرد تا از آنها در ساخت تصویر در جای درست خود استفاده کند. مرحله یادگیری یکی از مراحل بسیار مهم است و همین مرحله است که بین ابزارهای مختلف هوش مصنوعی مولد، تفاوت ایجاد می‌کند. حتی نحوه پردازش تصاویر، تصاویری که پردازش می‌شوند، تعداد تصاویر، سبک تصاویر، توضیحات هر تصویر و هر پارامتری در این مرحله تأثیرگذار است.

 

هوش مصنوعی مولد DALL-E چیست؟

دال-ای (image generator program) یک مدل یادگیری عمیق تولید کننده تصویر با هوش مصنوعی است که توسط OpenAI توسعه یافته است و از شبکه‌های مولد (GANs) برای تولید تصاویر با کیفیت بالا از روی توضیحات متنی به استفاده می‌کند. این هوش مصنوعی با مجموعه‌ عظیمی از تصاویر و همچنین با تکنیک‌های یادگیری بدون نظارت و یادگیری تقویتی، آموزش داده شده است و توانایی خلق تصاویر جدید با جزئیات بالا را دارد. دال-ای تنها در نسخه GPT-4 Plus قابل استفاده است و برای استفاده از آن باید مبلغ 20 دلار پرداخت کنید. اگر جزء کاربران حرفه‌ای هستید و می‌خواهید بدون محدودیت از همه امکانات آن استفاده کنید، هزینه کردن برای یک ابزار خوب، می‌تواند به عملکرد حرفه‌ای شما کمک کند. همچنین نسخه DALL-E 2 و اخرین نسخه یعنی DALL-E 3 هم نیاز به اعتبار دارند. اگر تازه وارد باشید مقداری بونوس اعتبار برای استفاده دارید، اما پس از آن اعتبار شما تمدید نمی‌شود و باید برای افزایش اعتبار، مبلغی را پرداخت کنید.

هوش مصنوعی مولد DALL-E

 

هوش مصنوعی مولد Midjourney چیست؟

میدجرنی (AI art generator) کمی زودتر از DALL-E معرفی شد. این هوش مصنوعی تصویرساز، قادر است تا علاوه بر ساخت تصاویر فوق‌العاده خلاقانه، از فیلترهای هنری و جلوه‌های ویژه نیز استفاده کند که منجر به خلق تصاویر هنری و ایجاد تجربه‌ی بصری خاص خود می‌شود. استفاده از Midjourney نیاز به برنامه Discord دارد برای کار با آن باید مبلغی را پرداخت کنید. اگر بخواهیم فقط در مورد میدجرنی به تنهایی نظر دهیم، می‌توان گفت تصاویر ساخته شده با این هوش مصنوعی بسیار خلاقانه و فوق‌العاده با جزئیات بالا هستند. Midjourney به صورت تخصصی تمرکز خود را بر روی خلق تصاویر فانتزی و هنری گذاشته و طبیعی است که بتواند به چنین قدرتی در خلق تصویر دست پیدا کند.

هوش مصنوعی مولد Midjourney چیست؟

 

بین DALL-E و Midjourney کدام بهتر است؟

اینکه بگوییم کدام یک از هوش مصنوعی خلق تصویر بهتر است،کار دشواری است. هرکدام از این دو هر روز درحال یادگیری و بروزرسانی خود هستند. شاید بتوانیم بگوییم که Midjourney مدتی زودتر طراحی و آموزش داده شده و تجربه بیشتری نسبت به DALL-E دارد. اما از سوی دیگر DALL-E نیز به سرعت در حال بروزرسانی خود است و ممکن است این سرعت بروزرسانی حتی بیشتر از میدجرنی پیش برود. بنابراین نمی‌توان هیچ کدام از این دو هوش مصنوعی را برتر از دیگری دانست. مخصوصاً حالا که DALL-E به نسخه سوم خود ارتقاء پیدا کرده است. اما چطور می‌توان این دو را با هم مقایسه کرد ؟

یکی از راه‌های مقایسه دو هوش مصنوعی در هر زمینه‌ای این است که با یک دستور Prompt حرفه‌ای نتیجه نهایی آنها را با هم مقایسه کرد. به مثال زیر توجه کنید:

Prompt #1 : Animated Pixar movie about two motorcyclists

بین DALL-E و Midjourney کدام بهتر است؟

 

 

 Prompt #2 : A head of a robot hooked up with wires to the ceiling, illuminated by colored lights

بین DALL-E و Midjourney کدام بهتر است؟

 

Prompt #3 : Spongebob Squarepants painted by Pablo Picasso, oil on canvas

بین DALL-E و Midjourney کدام بهتر است؟

 

Prompt #4 : Intricate sculpture of a skull

بین DALL-E و Midjourney کدام بهتر است؟

 

Prompt #5 : Bright summer afternoon, flowing river, lush nature, studio Ghibli style

بین DALL-E و Midjourney کدام بهتر است؟

 

مقایسه موردی DALL-E و Midjourney

  • اندازه تصویر: Midjourney می‌تواند با اندازه‌های مختلف کار کند؛ اما DALL-E تصاویر را فقط در سایز 1024*1024 ایجاد می‌کند.

  • تصویر ورودی: DALL-E قادر است تا یک تصویر ورودی داشته باشد و روی آن تغییرانی اعمال کند، اما Midjourney قادر به این کار نیست.

  • تصاویر فانتزی: Midjourney در ایجاد تصاویر فانتزی ماهر‌تر از DALL-E است و گویی یک گرافیست فوق‌العاده حرفه‌ای درحال طراحی است. اما DALL-E یک تلاش موفق برای ایجاد تصاویر گرافیکی است که در زمینه تصاویر فانتزی به یادگیری بیشتری نیاز دارد.

  • تشخیص صورت: DALL-E 2 قادر نیست به خوبی اجزای صورت را ایجاد کند. البته این مشکل تا حد زیادی در DALL-E 3 حل شده است. اما در این مورد Midjourney خلاقیت بیشتری به خرج می‌دهد.

  • تطبیق پذیری: Midjourney توانسته خود را با ژانرهای مختلف سینمایی و استوک علمی سازگار کند، درحالی که DALL-E جذابیت بصری لازم را برای استفاده علمی ایجاد نمی‌کند. شاید این بخاطر آشنایی Midjourney با ابزارهای علوم است.

  • تصاویر واقع‌گرایانه: بنظر می‌رسد Dall-E برای خلق تصاویر کودکانه و ساخت انیمیشن مناسب باشد درحالی که Midjourney می‌تواند تصاویر واقع گرایانه و حرفه‌ای خلق کند.

 

جایگزین‌های قابل استفاده

متأسفانه برای استفاده از هر دو هوش مصنوعی DALL-E و Midjourney باید مبلغی را پرداخت کنید و نسخه حرفه‌ای آنها استفاده کنید. از طرف دیگر Open-ai کاربران ایرانی را تحریم و محدود کرده است و نمی‌توان بصورت مستقیم از آن استفاده کرد؛ اگرچه استفاده از نسخه GTP-3 امکانپذیر است. Midjourney نیز محدودیت‌های خاص خود را دارد و همه نمی‌توانند از آن استفاده کنند. اما خوشبختانه جایگزین‌های مناسبی برای این دو هوش مصنوعی وجود دارد که در ادامه به آنها خواهیم پرداخت.

 

BING DALL-E

این صفحه یک ابزار اختصاصی برای ایجاد تصاویر خلاقانه است که با همکاری Microsoft و Open-ai راه اندازی شده است و بطور مستقیم از موتور تصویر ساز DALL-E 3 استفاده می‌کند. در واقع همان DALL-E است اما در قالبی ساده تر و بطور خاص برای ایجاد تصویر بکار می‌رود. اگرچه کار با BING DALL-E بطور کامل رایگان نیست، اما در ابتدا به شما مقداری بونوس می‌دهد تا بتوانید بصورت رایگان با آن کار کنید. همچنین بصورت هفتگی نیز مقداری بونوس به شما خواهد داد. اگر بتوانید برای استفاده از این ابزار برنامه ریزی درستی داشته باشید، نیازی به خرید اعتبار بیشتر نیست. علاوه براین بخش‌های مختلفی در این صفحه وجود دارد که با انجام بعضی از فعالیت‌ها می‌توانید بونوس رایگان دریافت کنید. برای مثال شرکت در نظرسنجی و یا بازدید از صفحه فروشگاه مایکروسافت و... . برای استفاده از BING DALL-E می‌توانید به آدرس bing.com/create مراجعه کنید.

BING DALL-E

 

Stable Diffusion

استیبل دیفیوژن (image-generating machine learning model) بسیار مشابه DALL-E عمل می‌کند اما نمی‌توان گفت که دقیقاً عملکرد DALL-E را دارد. ویژگی منحصر بفرد این هوش مصنوعی، رایگان بودن آن است. البته مشخص نیست تا چه مدت حالت رایگان آن در دسرس کاربران باشد، اما فعلاً می‌توان از آن با خیال راحت استفاده کرد. البته کار با این ابزار نیاز به توضیحات بیشتری در جزئیات Prompt دارد تا بتوان به هدف مورد رسید. در مثال زیر من مجبور شدم عبارت lowpoly را به آن اضافه کنم تا به استایل انیمیشن نزدیک شود.

استیبل دیفیوژن

 

Imagine

یکی دیگر از مولدهای تصویر ساز imagine.art است که می‌تواند تصاویر واقع گرایانه بسیار زیبایی را ایجاد کند. عملکرد این ابزار مشابه Midjourney است و بصورت تخصصی بر روی خلق و ویرایش تصویر کار می‌کند و کار کردن با آن بسیار لذت‌بخش است. این ابزار گزینه‌های بسیار زیادی را در اختیار کاربر قرار می‌دهد. البته بیشتر این گزینه‌ها شامل هزینه می‌شود؛ اما در حالت رایگان می‌توانید هر نوع تصاویری را در نسبت اندازه 1:1 ایجاد کنید. Imagine دارای 28 موتور تصویرساز است که 8 مورد از آنها رایگان در دسترس است. همچنین 86 استایل آماده دارد که 76 مورد آن رایگان است.

مولد تصویر ساز imagine.art

 

Gencraft

gencraft.com یکی دیگر از ابزارهای هوش مصنوعی مولد است که توانایی بسیار خوبی در ساخت تصاویر خلاقانه دارد. اگرچه استفاده از این ابزار و موتور Image 2 رایگان است، اما امکاناتی نظیر استفاده از موتورهای ART 2 - Image 2 Advanced و Balloon شامل هزینه است. ظاهراً این سه موتور اضافی قدرت بسیار بیشتری نسبت به حالت رایگان دارند. همچنین در نسخه پولی شما به آپلود تصویر نیز دسترسی خواهید داشت که به کمک آن می‌توانید تصاویر خلق شده را با تصویری که آپلود می‌کنید، ترکیب کنید.

Gencraft

 

Freepik

این ابزار نیز کیفیت بسیار خوبی را ارائه می‌دهد. می‌توان گفت خلاقیت Freepik چیزی بین DALL-E و Midjourney است. اگرچه این هوش مصنوعی رایگان نیست، اما روزانه به شما 40 بونوس رایگان اعتبار می‌دهد که معادل 40 تصویر است که همین تعداد حتی برای افراد حرفه‌ای، کافی بنظر می‌رسد. خوشبختانه به غیر از محدودیت اعتبار، همه‌ی امکانات Freepik رایگان و قابل استفاده است.

Freepik

 

سخن پایانی

توجه داشته باشید که اگرچه هوش مصنوعی ChatGTP توانایی درک همه زبان‌ها را دارد، اما از آنجا که زبان اصلی برنامه‌نویسی انگلیسی است و برنامه نویسان هم براساس زبان انگلیسی درک هوش مصنوعی را طراحی می‌کنند، اما بهتر است Prompt های شما به زبان انگلیسی باشد. نکته مهم دیگر این است که هرچقدر دستورات Prompt شما جزئیات بیشتری داشته باشد، هوش مصنوعی با دید بسیار واضح‌تری تصویر شما را ایجاد می‌کند. نمی‌توان انتظار داشته که بدون جزئیات دقیق، خروجی خوبی دریافت کنید. بنابراین تا جایی که می‌توانید به جزئیات دقت زیادی داشته باشید. در محتوای "جایگزین های هوش مصنوعی ChatGPT" می‌توانید با جایگزین‌های این هوش مصنوعی آشنا شوید.

DALL-E و Midjourney هر دو از بهترین مولدهای تصویر هستند. جای تعجبی هم ندارد که رایگان نیستند و باید برای استفاده از آنها پول پرداخت کنیم. جایگزین‌ها نیز ممکن است کار را تا حدود زیادی انجام دهند، اما هنوز به کیفیت DALL-E و Midjourney نمی‌رسند. البته مولد‌های تصویر بیشتر مناسب گرافیست‌ها و طراحان سه بعدی است و برای کاربران دیگر آنقدر ضروری نیست که نگران استفاده از جایگزین‌ها باشند.
وقتی از کیفیت صحبت می‌کنیم، واقعاً جای بحث و مقایسه دارد. برای مثال هوش مصنوعی craiyon نیز برای خلق تصویر راه اندازی شده است، اما تصاویر آن اصلاً قابل قبول و حتی قابل مقایسه با گزینه‌های دیگر نیست. همان ابتدا می‌توان LowPoly بودن craiyon را کاملاً حس کرد، در صورتی که شما از آن تصویر واقع گرایانه درخواست کرده‌اید. بنابراین توصیه می‌شود سمت craiyon نروید.

author
Mina seyfollahzadeh- نویسنده

712
A
A