آموزش ایجاد تصویر هوش مصنوعی و مقایسه: Dall-e VS Stable Diffusion VS Canva (متن به تصویر)

با محبوبیت رسانه ای فعلی از GPT چت این فرصتی است برای صحبت در مورد SLAB، هوش مصنوعی دیگری نیز طراحی شده توسط AI را باز کنید ! و به طور کلی AIهای تولید کننده تصویر. در جایی که ChatGPT قادر به تولید متن نوشته شده با سهولت نگران کننده است، DALL-E و امثال آن برای ایجاد تصاویر از یک درخواست کتبی ساده از کاربر آموزش دیده اند.

بیایید با این مقاله مقایسه ای از هوش مصنوعی ایجاد تصویر به نحوه کار، قابلیت های آنها و همچنین محدودیت های آنها نگاهی بیندازیم.

اما به هر حال، هوش مصنوعی چگونه کار می کند؟

سوال بسیار خوبی که شاید جالب باشد سریع به آن برگردیم، به خصوص که در مقاله قبلی خود در مورد ChatGPT به آن نپرداخته ایم. وقتی "هوش مصنوعی" را می شنوید، سخت است که این نوع ربات های انسان نما را که در فیلم ها دیده ایم در ذهن نداشته باشید. این همان چیزی است که هوش مصنوعی ها زمانی که از آنها تصویری مطابق با جستجوی این کلمات کلیدی خواسته می شود، مانند تصویر مقدماتی این مقاله، تولید می کنند.

*این چشم انداز وجود ندارد، 100٪ مصنوعی است که توسط یک هوش مصنوعی ایجاد شده است*

با این حال در واقعیت، بسیاری از هوش مصنوعی های موجود هیچ پوشش فیزیکی ندارند. در واقع، بیشتر اوقات، این برنامه‌های کامپیوتری مبتنی بر الگوریتم‌های خاص هستند که توسط انسان برای انجام برخی وظایف کم و بیش پیچیده آموزش دیده‌اند.

تولید تصویر وظیفه ای است که می توان آن را به یک (یا چند) AI اختصاص داد! برای آشنایی بیشتر با روش های ایجاد تصاویر توسط هوش مصنوعی، ویدیوی زیر را درنگ نکنید:

بیایید اولین تصاویر خود را با هوش مصنوعی تولید کنیم

برای انجام این کار، هیچ چیز در نگاه اول نمی تواند ساده تر باشد، زیرا تنها کاری که باید انجام دهید این است که تصویری را که می خواهید به دست آورید به صورت متنی برای هوش مصنوعی توصیف کنید. برای این مقاله تصمیم گرفتیم تصاویر ارائه شده توسط سه ژنراتور هوش مصنوعی را با هم مقایسه کنیم:

SLAB
انتشار پایدار
Canva (متن به تصویر)

البته موارد دیگری نیز وجود دارند که در تست آنها نیز تردید نکنید. اینجا یکی است لیست غیرمخرج.

اگر کمی خلاق باشید، مطمئن هستیم که ایده های زیادی برای تولید تصاویر پیدا خواهید کرد. اما برای کسانی که کمی پیچیده‌تر است، می‌توان از ChatGPT کمی کمک بخواهد. بله، ما از یک هوش مصنوعی برای استفاده از هوش مصنوعی دیگر استفاده کردیم…

پاسخ ChatGPT به این سوال: من باید یک مقاله در dall.e بنویسم، آیا شما ایده ای از تصاویری دارید که بتوان با این مدل هوش مصنوعی تولید کرد؟

البته DALL-E به عنوان یک مدل تولید تصویر می تواند تصاویر بسیار متنوعی ایجاد کند. در اینجا چند ایده برای تصاویری وجود دارد که می توانید با DALL-E ایجاد کنید:

حیوانات فانتزی: از DALL-E بخواهید تصاویری از حیوانات خیالی مانند اژدهایی با بال های پروانه یا مارهایی با پا ایجاد کند.

غذاهای عجیب: از DALL-E بخواهید تصاویری از غذاهای غیرمعمول مانند پیتزای شکلاتی یا برگر با تکه های هندوانه ایجاد کند.

لباس‌های غیرمعمول: از DALL-E بخواهید تصاویری از لباس‌های عجیب و غریب مانند کلاه برج ایفل یا کفش‌هایی با بال ایجاد کند.

مناظر خیالی: از DALL-E بخواهید تصاویری از مناظر فانتزی مانند شهری شناور در ابرها یا جنگلی از قارچ های غول پیکر تولید کند.

اشیاء هیبریدی: از DALL-E بخواهید تصاویری از اشیایی ایجاد کند که ترکیبی از دو چیز متفاوت هستند، مانند تختی که شبیه یک بانوج یا ماشینی با بال پرنده است.

پرتره افراد مشهور: از DALL-E بخواهید تصاویری از پرتره های افراد مشهور ایجاد کند، مانند نسخه جایگزین مرلین مونرو با خالکوبی.

اتومبیل های آینده نگر: از DALL-E بخواهید تصاویری از اتومبیل های آینده نگر تولید کند، مانند اتومبیلی که می تواند به هواپیما تبدیل شود یا اتومبیلی که می تواند پرواز کند.

معماری فانتزی: از DALL-E بخواهید تصاویری از معماری فانتزی، مانند آسمان خراش اژدها شکل یا خانه ای که شبیه درخت است، ایجاد کند.

این ایده ها فقط پیشنهادهایی هستند تا به شما ایده دهند که DALL-E چه کاری می تواند انجام دهد. هزاران ایده دیگر برای تصویر وجود دارد که می توانید با این الگوی هوش مصنوعی ایجاد کنید.

هر هوش مصنوعی سبک خاص خود را دارد

با این لیست، بیایید با هم ببینیم که چگونه تصاویر خود را تولید کنیم، و کدام یک از نرم افزارهای مختلف انتخاب شده بهترین عملکرد را دارد.

دفعات بازدید: مهاجرت به یک جدید forum phpBB 2.0.x به phpBB 3.1!

برای اولین تصویرمان، اژدها را با بال‌های پروانه نشان دادیم. برای افزودن برخی زمینه‌ها، ما همچنین می‌خواهیم این موضوع در «جنگل فانتزی افسانه‌ای» به تصویر کشیده شود. بسته به IA، زبان درخواست می تواند بر نتیجه تأثیر بگذارد. بنابراین ما به سرعت آن را برای DALL-E و Stable Diffusion پیدا کردیم انگلیسی زبانی بود که بهترین نتایج را داد. برعکس، برنامه متن به تصویر Canva به طور کلی در زبان فرانسوی بهتر کار می کند.

1. DALL-E تصاویری از یک اژدهای بال پروانه ایجاد کرد

2. اژدهاهای تولید شده توسط Stable Diffusion

3. و در نهایت موردی که ما برای ابزار Canva انتخاب کردیم

اولین چیزی که می توانیم خیلی سریع ببینیم: برای همان درخواست، هر هوش مصنوعی سبک خاص خود را دارد!

DALL-E جنبه "تخیلی" دارد، اگرچه جنگل "افسانه" برای پری ها کمی تاریک است، بال های پروانه به خوبی نشان داده شده و مرتب هستند. به سبک است هنر دیجیتال.
در Stable Diffusion سبک "شاد"تر است، کمی کودکانه. ما این تصاویر را به خوبی تصور می کنیم که داستانی را برای کودکان به تصویر می کشند. در اینجا اژدهاها به وضوح قابل مشاهده هستند و چین را به یاد می آورند که نماد آن است. از سوی دیگر، هوش مصنوعی بال‌های پروانه را کاملاً پنهان کرد و با ظاهر شدن پروانه‌های واقعی در کنار اژدهایان ما، راه‌حل آسان را انتخاب کرد.
در نهایت برای ابزار Canva، تنها تصویر مربوط به درخواست خود را از انتخاب انتخاب کردیم. با این حال، دو عنصر (اژدها و بال ها در اینجا حضور دارند). در حالی که همه تصاویر درون تم و قابل اجرا هستند، Canva بهترین عملکرد را در اجرای صادقانه درخواست دارد و بنابراین امتیاز اول را در اینجا کسب می کند.

امکانات سبک هنری تصویر درخواستی چیست؟

اگر جزئیاتی در مورد سبک هنری درخواست نشود، هوش مصنوعی آنها را مانند مثال اژدها برای شما انتخاب می کند.

با این وجود، برای مثال در Dall-e، می توان سبک های زیر را تعریف کرد:

رنگ روغن : Dall-e می تواند نقاشی های رنگ روغن را از توضیح رنگ ها و بافت هایی که می خواهید در نقاشی ببینید ایجاد کند.
عکاسی : Dall-e می تواند عکس ها را بر اساس رنگ ها، بافت ها و جزئیاتی که می خواهید در عکس ببینید ایجاد کند.
هنر دیجیتال : Dall-e می تواند آثار هنری دیجیتالی را از یک الگوی از پیش طراحی شده یا از توضیح رنگ ها و جزئیاتی که می خواهید در اثر هنری ببینید، تولید کند.
هنر انتزاعی : Dall-e می تواند بر اساس حرکات، رنگ ها و شکل هایی که می خواهید در اثر ببینید، آثار انتزاعی تولید کند.
نقاشی : Dall-e می تواند طرح هایی را بر اساس رنگ ها و شکل هایی که می خواهید در طرح ببینید ایجاد کند.
هنر وکتور : Dall-e می تواند تصاویر برداری را از یک الگوی از پیش تعریف شده یا از توضیحات رنگ ها و جزئیاتی که می خواهید در تصویر ببینید ایجاد کند.

نمونه‌های Dragon به‌طور پیشینی به سبک دیجیتال آرت ساخته شده‌اند. سبک به شدت بر تصویر تولید شده نهایی تأثیر می گذارد.

هنوز قوی تر، امکان درخواست سبک ها وجود دارد چند هنرمند معروف. بنابراین ما یک چت به سبک ایجاد کردیم پیکاسو، ون گوگ و دالی ! و نتایج ... کاملا خیره کننده است!

گربه ما که با هوش مصنوعی طراحی شده است به سبک 3 استاد بزرگ نقاشی

گربه به سبک پیکاسو
گربه به سبک ون گوگ
گربه به سبک دالی

بهتر است، ما پس از آن درخواست کردیم گربه به سبک پیکاسو و دالی و ون گوگ و ما این را گرفتیم:

ما هم درخواست کرده ایم "خوک به سبک پیکاسو" و نتیجه به همان اندازه، اگر نه بیشتر، چشمگیر بود…

هوش مصنوعی احتمالاً در سال‌های آینده انقلابی در حوزه هنر و اینترنت ایجاد خواهد کرد، که در حال حاضر در مورد NFT‌های گمانه‌زنی وجود دارد.

دفعات بازدید: پژوهش حقوقی: داده های قانونی و برق تجدید پذیر در اروپا

ما درک می کنیم بی اعتمادی به حرفه ای ها از هنر در مقابل این هوش مصنوعی های هنری، ترس آنها مانند ترس از انتشار و خلق ادبی در برابر ربات های چت مانند ChatGPT است! حق با آنهاست، همه این ترس ها به نظر ما موجه است!

روش های مختلف برای درخواست ایجاد یک تصویر با Dall-e چیست؟

چندین روش را می توان برای نشان دادن ایجاد یک تصویر با Dalle-e استفاده کرد، از جمله روش های گرافیکی برای نتیجه سریعتر مطابق با نیازهای شما:

تولید تصاویر از کلمات کلیدی : می توانید یک کلمه کلیدی وارد کنید و Dall-e بر اساس کلمات کلیدی که وارد کرده اید تصویری تولید می کند.
تولید تصاویر از جملات : می توانید یک جمله کامل وارد کنید و Dall-e بر اساس جمله ای که وارد کرده اید تصویری تولید می کند.
تولید تصاویر از توضیحات تصویر : Dall-e می تواند تصاویر را از توضیحات دقیق رنگ ها، اشکال و اشیایی که می خواهید در تصویر ببینید تولید کند.
تولید تصاویر از صحنه ها : Dall-e می تواند تصاویر سه بعدی را از توضیحات کامل یک صحنه تولید کند.
تولید تصاویر از الگوها : Dall-e می تواند تصاویر را از الگوهایی که وارد می کنید تولید کند.
تولید تصاویر از قالب ها : می توانید یک قالب از پیش تعریف شده برای Dall-e ارائه دهید و بر اساس قالبی که شما ارائه کرده اید تصاویر را تولید می کند.
تولید تصاویر از سکانس های متحرک : Dall-e می‌تواند سکانس‌های متحرک را از توضیحات حرکات، رنگ‌ها و صداهایی که می‌خواهید در سکانس ببینید، تولید کند.

تصاویر واقعی اما غیرمحتمل

سپس از تولیدکنندگان تصویر هوش مصنوعی خود خواستیم تا ما را ترسیم کنند سالاد با چشم : دو عنصری که در نگاه اول با هم نیستند. با این حال، در این مرحله، 3 ژنراتور ما بدون هیچ مشکلی ظاهر شدند.

1. چهار تصویر، از سالاد با چشم، پیشنهاد شده توسط DALL-E

2. دو تصویر مربوط به درخواست ما توسط Stable Diffusion تولید شده است

3. و دو تصویر مربوط به ابزار Canva

در اینجا نیز، هر تصویر سبک خاص خود را دارد، اما آنچه که به ویژه قابل توجه است واقع گرایی تصاویر مختلف است: هوش مصنوعی از سبک عکاسی استفاده کرده است.

ما غذاها را به‌خوبی تشخیص می‌دهیم، تا جایی که ممکن است بخواهیم ایده‌های مختلف ارائه شده در آشپزخانه را بازتولید کنیم. اگر Canva به دلیل اصالت خود با ارائه تصویری با الهامات "شکلک" متمایز است، در اینجا DALL-E است که با چهار تصویر مختلف و همه در تم درخواستی امتیاز را به دست می آورد.

در میان فلاپ‌های Stable Diffusion، یکی از تصاویر هنوز ارزش بازگشت به آن را دارد

در واقع، در این تصویر حذف شده به دلیل اینکه شامل چشم نمی شود، از سوی دیگر شاهد تلاش واقع گرایی هوش مصنوعی در نمایش برنامه کاری هستیم.

هوش مصنوعی ما در واقع قادر است کلمه "سالاد" را به محیط مربوطه پیوند دهد. این قبلاً در تصاویر بالا وجود داشت نمایش بشقاب ها، چنگال ها و سایر عناصر مرتبط با رشته آشپزی.

فلاپ هایی که هنوز هم منظم هستند

علیرغم کارایی کلی، هوش مصنوعی ما هنوز مقدار خوبی تولید می کند تصاویر متوسط و اشتباه کاملاً خارج از تقاضا هستند. این مورد برای ما بود کلاه به شکل برج ایفل.

DALL-E با تنها تصویری که به درخواست ما نزدیک می‌شود، امتیاز را به دست می‌آورد: یک کلاه سفید که بر روی یک برج مینیاتوری قرار گرفته است که ما کاملاً روی آن تصور می‌کنیم. رئیس Geneviève de Fontenay !

به غیر از این خنده کوچک ارائه شده توسط هوش مصنوعی Open AI، تصاویر دیگر یا خیلی واقعی بودند و به سادگی یکی از عناصر را نشان می دادند و دیگری را پنهان می کردند:

در تصویر اول Stable Diffusion نشان دهنده برج است، در حالی که در تصویر دوم، DALL-E تصمیم گرفت یک دسته از کلاه ها را برای ما بفرستد، همچنین قسمت دوم درخواست ما را پنهان می کند.

یا آنها درک اشتباهی از این درخواست داشتند، همانطور که در این دو تصویر که در آن DALL-E بیشتر نشان دهنده مجسمه های یادگاری برج ایفل است:

دفعات بازدید: Ma-Bonne-Action.com، بازاریابی همبستگی، انسان دوستانه و خیریه

در نهایت، برخی از تصاویر گاهی کاملاً نامتعارف هستند، همانطور که در مورد این تصویر وجود داشت که قرار بود نمایانگر "شخصی از تخیل IA Stable Diffusion" باشد که سپس تصمیم گرفت به طور خود به خود نقل قولی را به زبانی ناشناخته اضافه کند ... نزدیک از انگلیسی ...

حساسیتی که گاهی کلمه به کلمه متفاوت است

با انجام آزمایش‌ها، ما به سرعت متوجه می‌شویم که گاهی اوقات برای هوش مصنوعی ما کافی است در صورت نتایج نامطلوب، وضعیت را اصلاح کند. بنابراین وقتی برای اولین بار از هوش مصنوعی خود با انتخاب بهترین تصویر برای هر یک از آنها "شهری شناور در آسمان ابری" می پرسیم، نتیجه زیر را دریافت می کنیم:

به ترتیب از بالا به پایین نتایج Stable Diffusion، DALL-E و Canva

تصاویر بسیار زیبا، اما واقعاً مفهوم «غیر واقعی» درخواست ما را که توسط انسان‌ها درک شده است، اما ظاهراً توسط تولیدکنندگان ما، منعکس نمی‌کنند. تنها چیزی که لازم است یک تغییر ظریف در تقاضا برای به دست آوردن نتایج کاملا متفاوت است.

بنابراین با جمله "شهری فوق العاده شناور در آسمان ابری" این زمان را دریافت می کنیم:

1. تصاویر بسیار تخیلی تر از DALL-E

2. شهرهای بسیار زیبا و خارق العاده از Stable Diffusion که با این حال به طور کامل بخش "شناور در یک آسمان ابری" را حذف کرده است.

3. برخی از صحنه هایی که می تواند از یک بازی ویدیویی (مثلاً Minecraft یا Lego Worlds) توسط Canva گرفته شود.

در اینجا می‌توانیم به DALL-E و Canva که هر دو توانستند از طریق یکی از درخواست‌های ما، شهر ما را در ابرها شناور کنند، یک امتیاز اعطا کنیم.

اما پس از آن، چه آینده ای برای نسل تصاویر؟

در مواجهه با راه حلی که در مجموع به خوبی کار می کند، می اندیشید که کاربردهای آینده تولید تصاویر توسط هوش مصنوعی چه خواهد بود. البته وسوسه انگیز است که در اینجا ایجاد شکست در اینترنت را نقل کنید، دریغ نکنید که بیایید پست در ما forum مواردی که ممکن است قبلاً به صورت آنلاین با آنها برخورد کرده باشید.

اما می توانیم کاربردهای جدی تری را نیز تصور کنیم. بنابراین، نتایج به‌دست‌آمده از ابزار Canva برای ایجاد تصویری از «درختی که در واقع یک خانه است» به‌راحتی می‌تواند ایده‌هایی را در اختیار معمار قرار دهد که مسئول ایجاد زیستگاه‌هایی است که می‌توانند با طبیعت ترکیب شوند!

اما پس از آن، کدام یک از 3 تولید کننده تصویر ما بهترین عملکرد را دارد؟

برای درختی که خانه هم می شود، به راحتی به هر ابزار یک امتیاز می دهیم!

نمونه هایی از تصاویر ارائه شده به ترتیب توسط DALL-E، Stable Diffusion و سپس ابزار Canva

ماشینی با بال پرنده تمام هوش مصنوعی های ما را به چالش کشیده بود، اما ماشینی که می تواند پرواز کند به Canva و Stable Diffusion اجازه داد تا با چند رندر آینده گرایانه کاملاً واقع گرایانه برجسته شوند:

به ترتیب Stable Diffusion در بالا و Canva در پایین.

در نهایت DALL-E نشان داده است که با آن کاملاً کارآمد است ساختمانی به شکل اژدها (که هنوز در حال ساخت باقی مانده است)، و Canva توانست به بهترین شکل به درخواست پرتره ای که ما تا حدودی تغییر داده بودیم، با جایگزین کردن فرد مشهور با "شخصی از تخیل هوش مصنوعی" پاسخ دهد.

علیرغم برخی از عناصری که تولید تصویر را در پشت دو پرتره Canva نشان می دهد، رئالیسم هنوز قابل توجه است.

در شمارش نهایی، اینها هستند ابزار DALL-E و Canva's که به ترتیب هر کدام 5 امتیاز کسب می کنند.

آنها به طور کلی قادر به ارائه نتایج مطابق با اکثر درخواست های کاربر هستند.

Canva به دلیل واقع گرایی خود متمایز است، در حالی که DALL-E به محض اینکه درخواست نیاز به تخیل یا زمینه نقاشی دارد، مرتبط تر به نظر می رسد.

اما با وجود تنها 2 امتیاز، Stable Diffusion در کیفیت تصویری که می تواند ارائه دهد شکست نمی خورد! نقطه ضعف در درک او از درخواست‌های کاربر نهفته است، زیرا او اغلب تمایل دارد بسیار پایین‌تر از زمین بماند. با این حال، کشف آن نیز بسیار جالب است.

به هر حال، می‌توان انتظار داشت که در سال‌های آینده شاهد انقلابی در بسیاری از بخش‌های فعالیت هوش مصنوعی باشیم. و مطمئنا سریعتر از آن چیزی که برخی از آن زمان فکر می کنند کتاب هایی که به طور جزئی یا کامل توسط هوش مصنوعی نوشته شده اند در حال حاضر در آمازون به فروش می رسند…این گزارش تصویری کوتاه از BFMTV چند روز پیش در مورد آن صحبت کرده است: