هوش مصنوعی Dall-E یا midjourney! کدام بهتر است؟

یکی از ابزارهای هوش مصنوعی، ساخت تصاویر خلاقانه است که می‌تواند تصاویری به سبک نقاشی، سه بعدی و واقع‌گرایانه را خلق کند. این فناوری با قابلیت تشخیص محتوای متن و بازسازی آن به شکل تصاویر در کنار هم، می‌تواند هربار تصویری را ایجاد کند که هیچ کدام از آنها شبیه به هم و تکراری نیستند. ابزارهای ساخت تصویر ممکن است برای افراد عادی، زیاد کاربردی نباشند؛ اما به افراد حرفه‌ای مانند گرافیست‌های سه بعدی که در زمینه ساخت انیمیشن و بازی‌های کامپیوتری فعالیت می‌کنند، کمک می‌کند تا به ایده‌های جدید و خلاقانه‌ای برسند که هیچ کدام تکراری نیستند و هربار کاراکترهای جدید، طراحی کنند. درحال حاظر چندین ابزار هوش مصنوعی خلق تصویر وجود دارد که هرکدام بر اساس داده‌ها و الگوریتم‌های منحصر به فرد خود عمل می‌کنند و هرکدام نقاط قدرت و ضعف خود را دارند.

در این مقاله قصد داریم تا محبوب‌ترین آنها یعنی Dall-E و Midjourney را با یکدیگر مقایسه کنیم. هوش مصنوعی برای تولید و ویرایش محتوای ویدیویی نیز گزینه‌های زیادی را پیش روی ما قرار داده است. اگر می‌خواهید این ابزارها را بیشتر برسی کنید توصیه می‌کنیم مطالعه محتوای جذاب "ابزارهای هوش مصنوعی برای تولید و ویرایش محتوای ویدیویی" را فراموش نکنید.

هوش مصنوعی(Artificial Intelligence) چیست؟

مفاهیم زیادی را می‌توان برای هوش مصنوعی درنظر گرفت، اما بطور خلاصه هوش مصنوعی یا "Artificial Intelligence" یک الگوریتم انتزاعی برای حل مسائل پیچیده است که می‌تواند بر اساس ایجاد مجموعه‌ای از تجربه‌ها و تمرین‌هایی که بدست می‌آورد، برای موضوعات مختلف راه حل‌های جدید خلق کند که ما در محتوای "هوش مصنوعی چیست؟" مفصل در مورد این مفهموم صحبت کرده‌ایم. الگوریتم هوش مصنوعی بشدت مشابه الگوریتم تفکر انسان‌ها طراحی شده است و بر همین اساس می‌توان گفت که هوش مصنوعی نیز قابلیت تفکر دارد؛ که در علم کامپیوتر به آن "field of computer science and engineering practices for intelligence demonstrated by machines and intelligent agents" گفته می‌شود. هوش مصنوعی توانایی سیستم ها برای درک، ترکیب و استنتاج اطلاعات است و همین ویژگی هوش مصنوعی را با برنامه‌های کلاسیک متفاوت می‌کند.

اگر واضح‌تر بخواهیم مثال بزنیم، تمام احساساتی که انسان تجربه می‌کند، مانند احساس غم، شادی، عشق، محبت و... برنامه‌هایی هستند که بر مبنای یک برنامه بزرگ‌تر یعنی الگوریتم انتزاعی پردازش می‌شوند که با نام منطق فازی هم شناخته می‌شود. این الگوریتم خود از الگوریتم‌های مختلف دیگر از جمله یادگیری با نظارت، یادگیری بدون نظارت و یادگیری تقویتی طراحی شده که همه اینها به نتیجه مطلوب و نهایی کمک می‌کنند.

البته باید یادآور شویم که الگوریتم‌های یادگیری و جمع‌آوری داده‌ها نزدیک به 30 نوع هستند که این سه مورد بین آنها مهم‌ترین موارد بشمار می‌آیند. یکی از ویژگی‌های هوش مصنوعی این است که چیزی نمی‌تواند حواس آن را پرت کند و همین موضوع باعث می‌شود تا دقت بسیار بالاتری از انسان داشته باشد. همچنین سرعت پردازش بالاتری نسبت به انسان خواهد داشت. هوش انسان در لحظه تنها می‌توانند بر روی 3 بُعد از یک مسئله تمرکز و پردازش داشته باشد؛ اما هوش مصنوعی در این مورد محدودیت ندارد و همزمان می‌تواند هزاران بعد از یک مسئله را پردازش و مقایسه کند؛ همین موضوع برتری دیگر هوش مصنوعی نسبت به انسان‌ها است. در واقع تنها محدودیت هوش مصنوعی، می‌تواند قدرت پردازشگر مورد استفاده باشد که این مسئله نیز توسط شرکت‌های تولید کنند پردازشگر مانند Intel و NVIDIA حل شده است.

هوش مصنوعی(Artificial Intelligence) چیست؟

همین حالا شرکت NVIDIA یک ابر پردازنده مدل H100 تنها مخصوص پردازش‌های هوش مصنوعی طراحی کرده است که قادر است با قدرت GH200 گیگابایت، درست مانند یک سوپر کامپیوتر پردازش‌های سنگین هوش مصنوعی را انجام دهد. این پردازنده‌ها دارای 80 گیگابایت RAM داخلی هستند که وقتی بر روی یک اسلات 8 تایی قرار می‌گیرند، این مقدار به 640 گیگابایت RAM می‌رسد و از پس سنگین‌ترین پردازش‌های گرافیکی و محاسباتی براحتی برمی‌آیند. نکته جالب دیگر تعداد هسته‌های پردازنده مرکزی آن است. این پردازنده گرافیکی دارای 14,592 هسته است که با محاسبه بر روی 8 اسلات به 116,736 نیز میرسد. این رسماً یک انقلاب بزرگ در صنعت فناوری است.

هوش مصنوعی(Artificial Intelligence) چیست؟

قیمت این پردازنده حدود 4000 دلار پیش‌بینی شده که ممکن است زمان عرضه این قیمت تغییر کند. عربستان صعودی نیز برای ساخت شهر فوق پیشرفته نیوم Neom ، پیشاپیش هزاران عدد از این پردازنده را سفارش داده است. اما این پردازنده تنها مدلی نیست که برای کار با هوش مصنوعی طراحی شده است. هم‌اکنون شرکت‌های بزرگی همچون IBM دست به ساخت پردازنده‌های کوأنتومی زدند که توانایی همزمان میلیاردها پردازش را دارد و یک گزینه عالی برای توسعه اَبَر هوش مصنوعی است. همه این تلاش‌ها برای بهبود کیفیت عملکرد هوش مصنوعی است. اما با توجه به پیشرفت‌ها اخیر، احتمالاً بزودی هوش مصنوعی از هوش انسان پیشی خواهد گرفت و آنقدر قدرتمند خواهد شد که بتواند همزمان چندین ابعاد جهان را در ذهن خود شبیه سازی کند.

هوش مصنوعی(Artificial Intelligence) چیست؟

هوش مصنوعی مولد چیست؟

هوش مصنوعی مولد به ابزارهای هوش مصنوعی گفته می‌شود که قادر به خلق هستند و می‌توانند با ترکیب میلیون‌ها ایده، محتوای جدید خلق کنند. در صورتی که هوش مصنوعی بطور فیزیکی بتواند در قالب ربات‌های مکانیکی حضور داشته باشد، می‌تواند دست به نوآوری‌های بسیار جدید بزند. از این رو هوش مصنوعی می‌تواند با توجه به پیشبینی و پردازش بیماری‌ها، برای آنها داروهای جدید بسازد. هوش مصنوعی در هر زمینه‌ای که فکر کنید می‌تواند خلاقانه عمل کند و مولد باشد. کافی است تا براساس یک وظیفه مشخص کدنویسی شود تا بتواند دقیقاً به همان شکل در امور مختلف کمک خلاقانه و مولد داشته باشد. این کدها مانند استعداد ذاتی هر هوش مصنوعی است که به آن اختصاص داده می‌شود. برای مثال مولد تصویر، مولد ویدیو، مولد محتوای سئو شده، مولد کدهای برنامه نویسی؛ که همگی براساس توضیحات کاربر عمل می‌کنند.

هوش مصنوعی مولد تصویر چیست؟

هوش مصنوعی مولد تصویر نیز از مدل یادگیری عمیق تولید کننده تصویر استفاده می‌کند که به اصطلاح به آن موتور تصویرساز یا "Image Engine" گفته می‌شود. به این ابزار هوش مصنوعی به اصطلاح هوش مصنوعی تصویرساز یا "AI ART Generator" گفته می‌شود. مولد تصویر با میلیون‌ها تصویر تصویر، می‌تواند اشیاء درون تصویر را شناسایی کند و حتی کاربرد آنها را یاد بگیرد تا از آنها در ساخت تصویر در جای درست خود استفاده کند. مرحله یادگیری یکی از مراحل بسیار مهم است و همین مرحله است که بین ابزارهای مختلف هوش مصنوعی مولد، تفاوت ایجاد می‌کند. حتی نحوه پردازش تصاویر، تصاویری که پردازش می‌شوند، تعداد تصاویر، سبک تصاویر، توضیحات هر تصویر و هر پارامتری در این مرحله تأثیرگذار است.

هوش مصنوعی مولد DALL-E چیست؟

دال-ای (image generator program) یک مدل یادگیری عمیق تولید کننده تصویر با هوش مصنوعی است که توسط OpenAI توسعه یافته است و از شبکه‌های مولد (GANs) برای تولید تصاویر با کیفیت بالا از روی توضیحات متنی به استفاده می‌کند. این هوش مصنوعی با مجموعه‌ عظیمی از تصاویر و همچنین با تکنیک‌های یادگیری بدون نظارت و یادگیری تقویتی، آموزش داده شده است و توانایی خلق تصاویر جدید با جزئیات بالا را دارد. دال-ای تنها در نسخه GPT-4 Plus قابل استفاده است و برای استفاده از آن باید مبلغ 20 دلار پرداخت کنید. اگر جزء کاربران حرفه‌ای هستید و می‌خواهید بدون محدودیت از همه امکانات آن استفاده کنید، هزینه کردن برای یک ابزار خوب، می‌تواند به عملکرد حرفه‌ای شما کمک کند. همچنین نسخه DALL-E 2 و اخرین نسخه یعنی DALL-E 3 هم نیاز به اعتبار دارند. اگر تازه وارد باشید مقداری بونوس اعتبار برای استفاده دارید، اما پس از آن اعتبار شما تمدید نمی‌شود و باید برای افزایش اعتبار، مبلغی را پرداخت کنید.

هوش مصنوعی مولد DALL-E

هوش مصنوعی مولد Midjourney چیست؟

میدجرنی (AI art generator) کمی زودتر از DALL-E معرفی شد. این هوش مصنوعی تصویرساز، قادر است تا علاوه بر ساخت تصاویر فوق‌العاده خلاقانه، از فیلترهای هنری و جلوه‌های ویژه نیز استفاده کند که منجر به خلق تصاویر هنری و ایجاد تجربه‌ی بصری خاص خود می‌شود. استفاده از Midjourney نیاز به برنامه Discord دارد برای کار با آن باید مبلغی را پرداخت کنید. اگر بخواهیم فقط در مورد میدجرنی به تنهایی نظر دهیم، می‌توان گفت تصاویر ساخته شده با این هوش مصنوعی بسیار خلاقانه و فوق‌العاده با جزئیات بالا هستند. Midjourney به صورت تخصصی تمرکز خود را بر روی خلق تصاویر فانتزی و هنری گذاشته و طبیعی است که بتواند به چنین قدرتی در خلق تصویر دست پیدا کند.

هوش مصنوعی مولد Midjourney چیست؟

بین DALL-E و Midjourney کدام بهتر است؟

اینکه بگوییم کدام یک از هوش مصنوعی خلق تصویر بهتر است،کار دشواری است. هرکدام از این دو هر روز درحال یادگیری و بروزرسانی خود هستند. شاید بتوانیم بگوییم که Midjourney مدتی زودتر طراحی و آموزش داده شده و تجربه بیشتری نسبت به DALL-E دارد. اما از سوی دیگر DALL-E نیز به سرعت در حال بروزرسانی خود است و ممکن است این سرعت بروزرسانی حتی بیشتر از میدجرنی پیش برود. بنابراین نمی‌توان هیچ کدام از این دو هوش مصنوعی را برتر از دیگری دانست. مخصوصاً حالا که DALL-E به نسخه سوم خود ارتقاء پیدا کرده است. اما چطور می‌توان این دو را با هم مقایسه کرد ؟

یکی از راه‌های مقایسه دو هوش مصنوعی در هر زمینه‌ای این است که با یک دستور Prompt حرفه‌ای نتیجه نهایی آنها را با هم مقایسه کرد. به مثال زیر توجه کنید:

Prompt #1 : Animated Pixar movie about two motorcyclists