Stable Diffusion prompt là gì? Hướng dẫn viết prompt từ A-Z
Genlogin
21 Tháng Tư, 2023
Công cụ Stable Diffusion ngày càng được ứng dụng mạnh mẽ trong lĩnh vực đồ họa công nghệ. Để tạo ra những bức tranh AI chính xác từ yêu cầu văn bản của bạn, việc đưa ra một prompt cụ thể rất cần thiết nhưng không hề dễ dàng để làm được điều này. Trong bài viết này, chúng tôi sẽ hướng dẫn bạn tất cả các bước viết Stable Diffusion prompt từ cơ bản đến nâng cao kết hợp với ChatGPT. Cùng Genlogin tìm hiểu ngay nhé!
1. Giới thiệu Stable Diffusion prompt
Prompt là gì?
Theo camlo5, “Prompt” có nghĩa là “lời nhắc” hoặc “yêu cầu nhanh chóng”. Trong lập trình máy tính, “prompt” là thông điệp hoặc dòng lệnh xuất hiện trên màn hình để yêu cầu người dùng nhập dữ liệu hoặc thực hiện một hành động nhất định. Nó cũng có thể được sử dụng để chỉ một câu hỏi hoặc yêu cầu thông tin từ người khác trong cuộc trò chuyện.
Với Stable Diffusion prompt: Bạn gõ một đoạn mô tả và yêu cầu Stable Diffusion AI trả về một hình ảnh như mô tả. Prompt càng chuẩn, càng chi tiết, thì ảnh trả về sẽ càng giống như mong muốn của bạn.
Minh họa Stable Diffusion prompt
Hiện tại, Stable Diffusion AI đang được ứng dụng mạnh mẽ trong nhiều lĩnh vực, đặc biệt đồ họa AI. Việc tìm hiểu các yêu cầu, quy trình và cách viết một promt tốt sẽ cực kỳ quan trọng để cho ra tác phẩm ưng ý nhất. Bạn có thể tham khảo thông tin chi tiết hơn về Stable Diffusion.
2. Các yếu tố cấu thành Stable Diffusion prompt hoàn chỉnh
Như đã trình bày ở trên, một prompt tốt phải thật chi tiết, cụ thể và chuẩn xác thì hệ thống máy chủ Stable Diffusion mới hiểu yêu cầu của bạn và trả về kết quả như mong muốn. Về cơ bản có 8 yếu tố cấu thành một Prompt đạt chuẩn được chúng tôi đúc rút ra trong quá trình sử dụng, nhưng bạn không nhất thiết phải sử dụng đủ cho cùng 1 prompt.
Tùy theo từng yêu cầu hình ảnh để lựa chọn yếu tố phù hợp, nhưng hãy thử test lần lượt trước để nắm rõ nội dung từng yếu tố nhé.
2.1. Subject – Chủ thể
Trong Stable Diffusion prompt, chủ thể là yếu tố chính và bắt buộc phải có trong yêu cầu về bức ảnh của bạn. Đối với người dùng mới, lỗi thường mắc phải khi sử dụng là không viết đầy đủ thông tin, mô tả cũng như yêu cầu cho chủ thể của mình.
Ví dụ: chúng tôi muốn “một tấm hình chân dung của một cô gái đang chơi nhạc DJ trong quán bar”.
Khi mới làm quen với viết prompt, câu lệnh của bạn sẽ thường dạng “DJ Girl”
Viết prompt cho chủ thể dạng đơn giản. Nguồn: Camlo5.com
Với một Prompt đơn giản như thế này, AI vẫn có thể vẽ ra một cô gái đang chơi DJ, nhưng Stable Diffusion prompt sẽ không biết chính xác chúng tôi muốn gì ở chủ thể này. Do đó, nó đã trả về một hình ảnh DJ Girl bất kì từ kho dữ liệu nó thu thập được trước đó.
Với người dùng đã quen với Stable Diffusion prompt, họ có thể sử dụng một số mẹo sau để Stable diffusion AI biết chính xác mong muốn.
Ví dụ: nêu đặc điểm cô gái thuộc châu Âu hay châu Á, độ tuổi, backgroup bức ảnh là ngoài trời hay trong nhà… Ngoài ra, ở bài viết nâng cao, chúng ta có thể tùy chọn mặt một người nổi tiếng để làm nhân vật chính cho tấm hình. Nâng cao hơn nữa, có thể cho chính mặt của chúng ta là mặt của chủ thể DJ Girl …
Để minh họa với người nổi tiếng, chúng tôi sẽ chọn Gal Galdot làm nhân vật chính, đang đánh DJ ngoài bãi biển nào đó và mặc một bộ quần áo của wonder woman. Lệnh Stable Diffusion prompt như sau “Gal Gadot as a DJ Girl, playing dj board, beach background, wearing headphones, wonder woman clothing”
Viết prompt cho chủ thể dạng nâng cao. Nguồn: Camlo5.com
Qua ví dụ trên, chúng tôi hi vọng bạn sẽ phần nào hiểu được tầm quan trọng của việc mô tả Stable Diffusion prompt chi tiết để AI có thể hiểu và trả được kết quả như mong muốn.
2.2. Medium – Chất liệu
Trong Stable Diffusion prompt, yếu tố Medium được hiểu đơn giản là chất liệu, là thành phẩn sử dụng để yêu cầu AI tạo nên đầu ra của một bức ảnh. Ví dụ: medium có thể là chất liệu 3D, sơn dầu, anime, cartoon… Tùy vào từng từ khóa khác nhau bạn đưa ra thì trí tuệ nhân tạo sẽ được training để trả về kết quả kết nhau.
Chúng tôi sẽ lấy một ví dụ bằng hình ảnh cụ thể để mọi người dễ hiểu hơn. Chúng tôi muốn AI trải về chất liệu đầu ra là bức hình digital painting chứ không phải ảnh chụp bằng DSLR hay gì khác, từ khóa cần được bổ sung thêm: digital painting vào Stable Diffusion prompt. Cụ thể “Gal galdot as wonder woman, detailed clothing,fantasy, digital painting , highly detailed, sharp focus”
Tranh vẽ AI với chất liệu digital painting. Nguồn: Camlo5.com
2.3. Style – Phong cách nghệ thuật
Theo tài liệu tiếng anh thì chúng tôi tạm dịch Style là phong cách nghệ thuật như là siêu thực, pop art, giả tưởng hay ấn tượng… Để AI có thể hiểu chi tiết hơn về yêu cầu của bạn, hãy bổ sung thêm một số từ khóa bằng tiếng anh như siêu thực, giả tưởng… vào Stable Diffusion prompt.
Nếu không đọc bài viết này, bạn có thể tin rằng đây là bức hình được tạo ra bởi AI không? Đơn giản vì nó siêu chân thực và sát với thực tế, y hệt như ngoài đời thực.
Khi thay từ khóa siêu thực thành digital art, thì sản phẩm đầu ra của chúng ta sẽ có chất nghệ nghệ kiểu vẽ đồ họa digital hơn là ảnh chụp bằng máy ảnh DSLR. Tham khảo câu lệnh “Gal galdot as wonder woman, detailed clothing, digital art, highly detailed, sharp focus”
Tranh vẽ digital art. Nguồn: Camlo5.com
2.4. Artist – Họa sĩ
Trong thế giới AI Generate Image, các công cụ sẽ được học, đào tạo và ghi nhớ nguồn dữ liệu gồm ảnh và tranh của rất nhiều họa sĩ nổi tiếng trước đó. Yếu tố Artist – Họa sĩ có sức ảnh hưởng mạnh mẽ đến kết qura đầu ra của bức tranh mà bạn yêu cầu. Artist trong Stable Diffusion prompt sẽ cho phép bạn điều chỉnh phong cách chính xác của một nghệ sĩ cụ thể hoặc có thể mix từ khóa tên 2 họa sĩ với nhau để ra một trường phái riêng biệt chưa từng tồn tại.
Ví dụ: với bản Stable Diffusion hiện tại với model cơ bản đã được trainning trước đó, Stanley Artgerm Lau là một nghệ sĩ truyện tranh về mảnh siêu anh hùng, và Alphonse Mucha, một họa sĩ chân dung vào thế kỷ 19. Chúng tôi sẽ sử dụng câu lệnh kết hợp sau để tạo ra bức ảnh bên dưới: “Gal galdot as wonder woman, cinematic stage, detailed clothing,fantasy, digital painting by Stanley Artgerm Lau and Alphonse Mucha”
Bức ảnh kết hợp với yếu tố Artist. Nguồn: Camlo5.com
Qua ví dụ trên, chúng ta có thể thấy phong cách của cả hai nghệ sĩ đã hòa quyện và phát huy tác dụng một cách độc đáo đúng không?
2.5. Website
Theo một số nghiên cứu, các thế hệ AI được cung cấp nguồn dữ liệu và học tập tất cả các tác phẩm tranh từ 2 website nổi tiếng là Artstation & Deviant Art. Do đó, bạn chỉ cần biết tên của một tài khoản nổi tiếng nào đó có lượng follow lớn từ 1 trong 2 website trên và từ năm 2022 trở về trước thì công cụ Stable Diffusion chắc chắn vẽ lại được đúng phong cách nghệ thuật của họ.
Nếu bạn vẫn phân vân không biết chọn ai, bạn hoàn toàn có thể sử dụng 1 số từ khóa chung như trending on Artstation hay Deviant Art để công cụ trí tuệ nhân tạo lựa chọn thay bạn. Ví dụ một câu lệnh trong Stable Diffusion prompt như sau: “Gal galdot as wonder woman, cinematic stage, detailed clothing,fantasy, digital painting, Trending on Artstation” sẽ trả về kết quả như hình dưới.
Tranh vẽ AI với yếu tố Website. Nguồn: Camlo5.com
2.6. Resolution – Độ phân giải
Với yếu tố Resolution trong Stable Diffusion prompt, hai từ khóa không thể thiếu để tạo nên hình ảnh sắc nét và rõ nhất có thể là “highly detailed” và “sharp focus”. Một số từ khóa có thể bổ sung thêm như 4K, 8K vào Stable Diffusion prompt.
Tuy nhiên, về cơ bản với một hình ảnh đầu ra của một seed là khoảng 512px cho một cạnh của hình ảnh thì việc bổ sung thêm các key phụ 4K, 8K cũng không ảnh hưởng đến kết quả nhiều. Do đó, bạn có thể không cần bổ sung hay quan tâm đến nó.
Chúng tôi sẽ đưa ra một câu lệnh ví dụ như sau: “Gal galdot as wonder woman, detailed clothing, highly detailed, sharp focus” và kết quả trả về như hình dưới.
Tranh vẽ với yếu tố Resolution. Nguồn: Camlo5.com
2.7. Color – Màu sắc
Trong Stable Diffusion prompt, yếu tố màu sắc là một phần khá quan trọng ảnh hưởng đến thẩm mĩ của bức ảnh. Nó có thể hài hòa hoặc tạo nên cảm giác khó chịu cho người xem. Ví dụ, những màu nóng như vàng, cam, đỏ… sẽ khiến người nhìn có chút cảm giác ấm, nóng, khó chiu. Còn những màu như xanh, tím… lại cho cảm giác lạnh lẽo, buồn, cô đơn.
Trong hệ thống Ai Generated Images, bạn hoàn toàn có thể kiểm soát được màu sắc tổng thể của hình ảnh yêu cầu, bằng cách thêm các từ khóa liên quan đến màu sắc vào Stable Diffusion prompt của mình. Các màu mà bạn chỉ định có thể liên quan đến toàn bức ảnh, hoặc chỉ một chi tiết cụ thể nằm trong bức ảnh.
Ví dụ, chúng tôi sẽ thử thêm từ khóa “gold” vào Stable Diffusion prompt của mình xem có gì khác biệt không nhé “Gal galdot as wonder woman, cinematic stage, detailed clothing,fantasy, digital painting by Stanley Artgerm Lau and Alphonse Mucha, gold”.
Tranh vẽ với yếu tố Color. Nguồn: Camlo5.com
2.8. Lighting – Ánh sáng
Với yếu tố Lighting trong Stable Diffusion prompt, bạn có thể sử dụng một số từ khóa phổ biến như cinematic lighting, dark mood, background light, rim light, main light … Việc lựa chọn từ khóa nào cũng cũng có ảnh hưởng đến kết quả đầu ra và cảm xúc của bức ảnh. Hoặc bạn có thể thử thêm một vài từ khóa khác cho Stable Diffusion prompt để có nhiều trải nghiệm hơn nhé.
2.9. Cú pháp
Khi tham khảo Stable Diffusion prompt của nước ngoài, có hai dạng cú pháp bạn thường nhìn thấy là () và []. Tuy nhiên, nhiều người viết prompt chưa thực sự hiểu ý nghĩa và cách dùng của nó như thế nào. Cụ thể:
Khi bạn chèn từ khóa vào trong (), công cụ AI sẽ hiểu rằng bạn cần tăng thêm độ mạnh của từ khóa này so với những từ khóa khác.
Ngược lại, khi chèn từ khóa vào [], công cụ AI sẽ hiểu rằng bạn cần giảm độ mạnh của từ khóa này so với những từ khóa khác.
Các prompter nước ngoài thường sử dụng “trọng số” để kiểm soát kết quả đầu ra của mình. Và bản Stable Diffusion hiện tại bạn đang dùng, bạn có thể kiểm soát giống như họ bằng cách thêm cú pháp vào các từ khóa muốn đánh trọng số.
Chúng tôi sẽ lấy ví dụ về cú pháp [] để bạn hiểu rõ hơn nhé!
[keyword1 : keyword2: factor]
Bức ảnh đầu tiên với prompt: Portrait of the a person [joe biden : donald trump : 0.1]
Chúng tôi muốn một bức ảnh chân dung được kết hợp từ 2 từ khóa với thứ tự là Joe Biden & Donald Trump với cú pháp là [], và trọng số là 0.1 . Kết quả đầu ra sẽ như hình bên dưới :
Nguồn: Camlo5.com
Bức ảnh thứ 2 với prompt: Portrait of the a person [joe biden : donald trump : 0.3]
Chúng tôi muốn một bức ảnh chân dung được kết hợp từ 2 từ khóa với thứ tự là Joe Biden & Donald Trump với cú pháp là [], và trọng số là 0.3 . Kết quả đầu ra sẽ có sự kết hợp nhẹ giữa 2 người.
Bức ảnh thứ 3 với prompt: Portrait of the a person [joe biden : donald trump : 0.75]
Chúng tôi muốn một bức ảnh chân dung được kết hợp từ 2 từ khóa với thứ tự là Joe Biden & Donald Trump với cú pháp là [], và trọng số là 0.75 . Kết quả đầu ra sẽ hoàn toàn là ngài Joe Biden:
Có thể thấy, việc thêm cú pháp với các trọng số khác nhau trong Stable Diffusion prompt sẽ quyết định đầu ra của bức ảnh khá mạnh mẽ.
3. Cách viết prompt trong Stable Diffusion đơn giản
Nếu bạn đã dùng qua các trình tạo ảnh AI, chẳng hạn như Stable Diffusion, DALL-E, hoặc MidJourney, bạn biết rằng để tạo ảnh cần 1 Prompt thực sự tốt. Nội dung Prompt càng chuẩn thì ảnh được tạo ra sẽ như ý muốn và ngược lại.
Tuy nhiên, tạo ra 1 prompt để khớp được suy nghĩa của con người và máy là một điều không hề dễ dàng. Do đó dưới đây là vài cách sẽ giúp bạn có thể tối ưu các Stable Diffusion prompt trong quá trình tạo ảnh:
3.1. Sử dụng Prompt phủ định
Phiên bản mới nhất của Stable Diffusion tại thời điểm cập nhật này là phiên bản 2.1, cho phép bạn liệt kê các Prompt phủ định. Prompt phủ định tương tự như Prompt thông thường của bạn, nhưng thay vì mô tả những gì bạn muốn thì hãy mô tả những gì bạn không muốn.
Hãy thử tạo bộ ảnh đầu tiên của bạn mà không có Prompt phủ định, sau đó thêm Prompt phủ định để loại bỏ các yếu tố bạn không thích.
3.2. Prompt càng cụ thể càng tốt
Stable Diffusion thường hoạt động tốt với những Prompt cụ thể, đặc biệt là so với MidJourney. Bạn cần cho nó biết chính xác những gì bạn muốn. Ví dụ bạn sử dụng Prompt: Cute cat. Kết quả trả về là một loạt hình ảnh các chú mèo dễ thương.
Nhưng nếu bạn muốn kết quả cụ thể hơn là một chú mèo màu xám, mà không phải là tập hợp các loại mèo có những bộ lông khác nhau? Vậy thì, bạn cần chỉ định rõ ràng điều đó. Hãy sử dụng “Cute grey cat” thay cho Prompt ban đầu.
Bây giờ, Stable Diffusion sẽ trả về cho bạn tất cả các bức ảnh mèo xám. Bạn có thể thêm vào mô tả về những gì bạn muốn, bao gồm việc trang trí cho các con mèo trong các hình ảnh. Stable Diffusion prompt sẽ tiếp tục điều chỉnh ảnh cho đến khi phù hợp với mong muốn của bạn.
3.3. Thêm từ khoá vào Prompt để cụ thể hoá phong cách của hình ảnh
Việc chỉ định phong cách của kết quả đầu ra là rất quang trọng. Ví dụ, với Prompt ban đầu “Cute grey cat”, giả sử bạn muốn một số con mèo xám dễ thương, nhưng cũng muốn chúng trông như một bức tranh sơn dầu. Vậy hãy thêm từ khóa “bức tranh sơn dầu” vào thì Stable Diffusion prompt sẽ thành “Cute Grey Cat, acrylic painting.”
Bạn nên bắt đầu với ít từ khóa nhất để tiếp cận với điều bạn muốn, sau đó hãy thêm nhiều hơn để chọn ra một phong cách mà bạn đang tìm kiếm. Stable Diffusion prompt có sẵn hàng chục phong cách nghệ thuật khác nhau, từ bản vẽ bằng bút chì đến mô hình đất sét đến phát hiện 3D từ Unreal Engine.
3.4. Tạo Stable Diffusion prompt với tên nghệ sĩ cụ thể
Hiện tại, Stable Diffusion có khả năng mô phỏng các tác phẩm của các nghệ sĩ cụ thể nếu bạn muốn. Ví dụ sử dụng tên Pablo Picasso.
Bạn nên thử thêm “by (tên nghệ sĩ)” vào yêu cầu của mình để cho ra kết quả chính xác. Hãy sử dụng một hoặc nhiều tên nghệ nghĩ kết hợp cùng lúc cho Stable Diffusion prompt của mình. Thường thì Stable Diffusion sẽ kết hợp các phong cách tương ứng của họ để cho ra một kết quả phù hợp nhất.
Mẹo: Nếu bạn đang sử dụng phiên bản GUI của Stable Diffusion cho Windows mà chúng tôi đã giới thiệu, nút “Roll” bên phải cửa sổ yêu cầu sẽ ngẫu nhiên thêm một nghệ sĩ vào yêu cầu của bạn. Đây là một cách tuyệt vời để khám phá các phong cách mới.
3.5. Tăng giá trị cho từ khóa trong Stable Diffusion prompt
Nếu bạn chỉ đưa các từ khóa vào Stable Diffusion prompt một cách đơn thuần thì kết quả đầu ra cũng chỉ đạt mức tương đối và không thể đảm bảo kết quả đúng như bạn mong muốn. Hoặc, bạn đã đưa từ khóa vào gợi ý nhưng lại không phân bổ chính xác tỷ lệ thì kết quả đầu ra cũng sẽ không thể chính xác được.
Như đã trình bày ở mục 2.9, các yếu tố trọng số cho các từ khóa sẽ ảnh hưởng đến kết quả khá nhiều. Bạn có thể yêu cầu nó tập trung vào một số từ khóa cụ thể hơn (hoặc ít quan trọng hơn) để có được kết quả chính xác nhất.
Trong dòng lệnh của Stable Diffusion prompt, bạn chỉ cần thêm một dấu hai chấm kèm theo một số thập phân vào từ khóa bạn muốn nhấn mạnh. Các số thập phân này là tỷ lệ phần trăm, vì vậy tổng của chúng phải bằng 1.
Quay trở lại với ví dụ “cute grey cat” (Chú mèo xám dễ thương), giả sử nó đang tạo ra những con mèo dễ thương nhưng không có nhiều hình ảnh kết quả với mèo màu xám. Bạn có thể sửa đổi PromStable Diffusion prompt pt thành “cute, grey cat:0.7” để nó tập trung vào từ khóa “grey cat”, sau đó tự động chuyển phần còn lại cho “cute”. Nếu muốn chính xác hơn, bạn có thể chỉ định trọng số cho mỗi từ khóa, ví dụ “Cute:0.10, Grey Cat:0.60, Unreal Engine rendering:0.30”.
Hầu hết các giao diện đồ họa (GUI) của Stable Diffusion hỗ trợ trọng số mà không yêu cầu bạn nhập tỷ lệ phần trăm. Thay vào đó, bạn có thể đặt ngoặc đơn để nhấn mạnh một thuật ngữ trong gợi ý và đặt ngoặc vuông để giảm sự quan trọng của một thuật ngữ. Ví dụ “cute, grey cat” bạn có thể đặt như sau:[cute], ((grey cat)).
3.6. Những nguồn cảm hứng khác cho Stable Diffusion prompt
Trong giai đoạn gần đây, các công cụ AI như ChatGPT, Stable Diffusion hay Midjourney… trở thành từ khóa được tìm kiếm ở khắp các diễn đàn. Các tiện ích và tài nguyên bổ sung cũng được phát triển rất nhiều để tăng trải nghiệm người dùng.
Dưới đây là một vài nguồn tài nguyên để giúp kích thích cảm hứng của bạn trong quá trình viết Stable Diffusion prompt:
Lexica – Bạn có thể tìm kiếm theo từ khó trong một kho lưu trữ hình ảnh được tạo ra bằng Stable Diffusion và bộ Prompt tương ứng.
Stable Diffusion Artist Style Studies – Công cụ này có sẵn một danh sách lớn các nghệ sĩ mà Stable Diffusion có thể nhận ra, cũng như các mô tả chung về phong cách nghệ thuật của họ.
Stable Diffusion Modifier Studies – Công cụ này có một danh sách các Prompt có thể được sử dụng với Stable Diffusion, tương tự như trang web của nghệ sĩ.
The AI Art Modifiers List – Đây là một bộ sưu tập ảnh trưng bày với các từ khoá sử dụng trong câu hỏi.
Top 500 Artists Represented in Stable Diffusion – Bộ sưu tập những hình ảnh đã có sẵn trong bộ dữ liệu của Stable Diffusion, bạn có thể xác định được nghệ sĩ nào được nhắc tới nhiều nhất trong dữ liệu của công cụ này. Nghệ sĩ nào được đại diện nhiều trong dữ liệu, Stable Diffusion sẽ phản hồi tốt hơn với tên của họ là một từ khóa.
The Stable Diffusion Subreddit – Cộng đồng Stable Diffusion trên Reddit có liên tục cập nhật các đề tài mới và các khám phá thú vị. Nếu bạn đang tìm kiếm cảm hứng hoặc những hướng dẫn có ích, thì đây là một nguồn tài nguyên hữu ích không thể bỏ qua.
3.7. Thay đổi các cài đặt quan trọng khác trong Stable Diffusion prompt
Tạo nên một Stable Diffusion prompt hợp lý có lẽ là phần khó nhất với người dùng, tuy nhiên, bạn có thể thực hiện một số thay đổi trong cài đặt để có được kết quả ưng ý nhất. Cụ thể:
CFG: Xác định mức độ Stable Diffusion tuân theo gợi ý của bạn. Chỉ số càng cao nghĩa là kết quả tuân theo gợi ý nhiều hơn, trong khi con số càng thấp sẽ cho phép công cụ này có nhiều sự tự do sáng tạo kết quả hơn.
Sampling Method: Cách ảnh được chế tạo từ tạp âm thành hình ảnh. Những lựa chọn thay đổi phổ biến như Euler_a, k_LMS và PLMS.
Sampling Steps: Số lần một hình ảnh sẽ được gợi ý mẫu trước khi bạn nhận được kết quả cuối cùng.
4. Cách sử dụng ChatGPT để tạo Stable Diffusion prompt hiệu quả
Chắc hẳn các bạn đã quen thuộc với hai công cụ trí tuệ nhân tạo AI mạnh mẽ nhất hiện nay là ChatGPT và Stable Diffusion. Nếu ChatGPT có khả năng xử lý ngôn ngữ tự nhiên, hỗ trợ giao tiếp bằng văn bản tuyệt vời thì Stable Diffusion là công cụ tạo những bức ảnh A.I hoàn hảo từ văn bản đó. Vì vậy, tại sao không kết hợp cả 2 để giúp công việc trở nên thoải mái hơn?
4.1. Tại sao nên kết hợp ChatGPT và Stable Diffusion
Như đã giới thiệu ở trên, ChatGPT là công cụ xử lý văn bản, nó có chứa một lượng cơ sở dữ liệu khổng lồ về từ ngữ, câu văn,. Đây là điều cần thiết để tạo ra dữ liệu prompt chất lượng làm đầu vào cho Stable Diffusion.
Trong khi đó, công cụ Stable Diffusion được đào tạo với một tập dữ liệu hình ảnh vô cùng phong phú, nhưng nó chỉ có thể sáng tạo ra những bức ảnh AI bằng câu lệnh Stable Diffusion prompt chính xác nhất.
Kết hợp ChatGPT và Stable Diffusion để tạo ra hình ảnh AI lượng cao là một ý tưởng tuyệt vời vì cả hai công nghệ đều có những ưu điểm và khả năng đặc biệt trong lĩnh vực trí tuệ nhân tạo. Khi kết hợp ChatGPT và Stable Diffusion, chúng ta có thể tận dụng khả năng xử lý ngôn ngữ tự nhiên của ChatGPT để đưa ra những yêu cầu hoặc đề xuất về hình ảnh mà chúng ta muốn tạo ra. Sau đó, Stable Diffusion sẽ sử dụng các kỹ thuật và thuật toán để tạo ra những hình ảnh AI lượng cao dựa trên yêu cầu của chúng ta.
Với những người dùng mới bắt đầu viết prompt thì các hướng dẫn sử dụng ChatGPT để tối ưu kết quả đầu vào sẽ thực sự cần thiết.
4.2. Cách yêu cầu ChatGPT tạo ra Stable Diffusion prompt hiệu quả
Để tận dụng công cụ ChatGPT hiệu quả, bạn cần lưu ý 3 yêu cầu sau khi viết Stable Diffusion prompt:
4.2.1. Mô tả ảnh chân dung
Có ba kỹ thuật quan trọng để đưa ra các lời nhắc Stable Diffusion prompt chất lượng cao từ ChatGPT:
Chỉ định phong cách hình ảnh: Bạn cần yêu cầu một loại hình ảnh cụ thể như “hình minh họa cận cảnh, ảnh chân thực”.
Yêu cầu chủ đề cụ thể: Ví dụ tên một nhân vật cụ thể như diễn viên “Ana de Armas”. Nếu chủ đề không cố định, ChatGPT sẽ sử dụng một nữ diễn viên khác nhau trong mỗi lời nhắc. Phong cách và thành phần có thể được thay đổi đơn giản vì điều đó.
Yêu cầu tạo nhiều biến thể.
Lưu ý: Do Stable Diffusion prompt chỉ sử dụng câu lệnh bằng tiếng anh nên hãy yêu cầu ChatGPT phản hồi lại bằng ngôn ngữ tiếng Anh.
Bây giờ, hãy kết hợp 3 kỹ thuật này vào với nhau thông qua ví dụ bên dưới của chúng tôi nhé!
“Hãy viết lời nhắc Stable Diffusion prompt chất lượng cao dành cho hình ảnh chân dung cận cảnh tuyệt đẹp của Ana de Armas, dùng cho mô hình chuyển văn bản thành hình ảnh text-to-image (Stable Diffusion), bằng tiếng Anh.
Kết quả là:
– portrait of beautiful happy young ana de armas, ethereal, realistic anime, trending on pixiv, detailed, clean lines, sharp lines, crisp lines, award winning illustration, masterpiece, 4k, eugene de blaas and ross tran, vibrant color scheme, intricately detailed
alberto seveso and geo2099 style, A highly detailed and hyper realistic portrait of a gorgeous young ana de armas, lisa frank, trending on artstation, butterflies, floral, sharp focus, studio photo, intricate details, highly detailed, by Tvera and wlop and artgerm
Hãy yêu cầu: ChatGPT cho thêm nhiều ví dụ. ChatGPT sẽ phản hồi:
A stunning close-up illustration of Ana de Armas in a dramatic, dark and moody style, inspired by the work of Simon Stålenhag, with intricate details and a sense of mystery.
A photorealistic, highly detailed illustration of Ana de Armas in a vintage Hollywood style, reminiscent of the golden age of cinema, with a focus on glamour and elegance.
A close-up illustration of Ana de Armas in a neo-noir style, reminiscent of the film noir genre, with a focus on shadows, contrasts, and a sense of danger.
Tiếp theo, hãy đưa những câu prompt này vào Stable Diffusion với lời nhắc phủ định negative prompt như bên dưới:
ugly, tiling, poorly drawn hands, poorly drawn feet, poorly drawn face, out of frame, extra limbs, disfigured, deformed, body out of frame, bad anatomy, watermark, signature, cut off, low contrast, underexposed, overexposed, bad art, beginner, amateur, distorted face
ChatGPT Prompt #1: A stunning close-up illustration of Ana de Armas in a dramatic, dark and moody style, inspired by the work of Simon Stålenhag, with intricate details and a sense of mystery.
ChatGPT Prompt #2: A photorealistic, highly detailed illustration of Ana de Armas in a vintage Hollywood style, reminiscent of the golden age of cinema, with a focus on glamour and elegance.
ChatGPT Prompt #3: A close-up illustration of Ana de Armas in a neo-noir style, reminiscent of the film noir genre, with a focus on shadows, contrasts, and a sense of danger.
Như vậy, qua 3 prompt này, chắc hẳn bạn đã thấy được sự sáng tạo mạnh mẽ giữa prompt của ChatGPT và công cụ tạo ảnh AI Stable Diffusion.
4.2.2. Ảnh mô tả toàn thân full body
Bây giờ, hãy tinh chỉnh yêu cầu ChatGPT để đưa ra lời nhắc về ảnh chân dung toàn thân. Tất cả những gì bạn cần làm là thêm cụm từ “full-body” vào câu nhắc của bạn và đưa ra các ví dụ minh họa.
Ví dụ: hãy viết lời nhắc chất lượng cao dành cho hình mô tả toàn thân, theo ảnh chân thực tuyệt đẹp của ana de armas cho các mô hình chuyển văn bản thành hình ảnh text-to-image (Stable Diffusion), bằng tiếng Anh. Kết quả là:
full body portrait of beautiful happy young ana de armas, ethereal, realistic anime, trending on pixiv, detailed, clean lines, sharp lines, crisp lines, award winning illustration, masterpiece, 4k, eugene de blaas and ross tran, vibrant color scheme, intricately detailed
full body portrait of a gorgeous young ana de armas, A highly detailed and hyper realistic lisa frank, trending on artstation, butterflies, floral, sharp focus, studio photo, intricate details, highly detailed, by Tvera and wlop and artgerm, alberto seveso and geo2099 style,
Hãy cho thêm nhiều ví dụ:
ChatGPT Prompt #4: Full body illustration of Ana de Armas in a stunning red dress, posing elegantly against a beautiful sunset background, with realistic lighting and shadows, by a master digital artist known for their photorealistic style, such as Jomaro Kindred or Gleb Alexandrov
ChatGPT Prompt #5: A full body illustration of Ana de Armas as a powerful warrior queen, with intricate armor and weapons, in a dynamic and action-packed pose, rendered in a highly detailed and photorealistic style by top fantasy artists such as Simon Stålenhag or Jora Vision
ChatGPT Prompt #6: A full body illustration of Ana de Armas as a sultry and mysterious sorceress, with detailed and realistic clothing and accessories, in a dramatic and captivating pose, by leading fantasy and sci-fi artists such as Yoshitaka Amano or Dave Rapoza.
4.2.3. Yêu cầu dựa trên kết quả của ChatGPT
Nếu bạn cảm thấy lời nhắc cụ thể mà ChatGPT đưa ra phù hợp, bạn có thể yêu cầu nó đưa thêm nhiều kết quả bằng cách như: “Tôi thích cái thứ ba. Bạn có thể cho tôi thêm ví dụ như vậy?”
ChatGPT sẽ cung cấp cho bạn nhiều biến thể của cùng một phong cách. Từ đó bạn có thể sáng tạo ra nhiều hình ảnh của phong cách này, và lựa chọn một bức hình tốt nhất.
5. Lưu ý khi sử dụng Stable Diffusion prompt
Hãy mô tả cụ thể và chi tiết nhất có thể chủ thể mà bạn mong muốn.
Sử dụng từ khóa trong () để nhấn mạnh cho AI biết mình đang cần gì, và [] để AI hiểu bạn đang cần giảm độ ưu tiên của những thứ bạn mô rả trong dấu ngoặc.
Sử dụng chất liệu phù hợp với nghệ sĩ. Ví dụ nếu bạn yêu cầu một bức ảnh với chất liệu là ảnh chân dung chụp bằng DSLR thì không nên yêu cầu ảnh đó được chụp với phong cách của họa sĩ Van Gogh được.
Kết luận
Chúng tôi đã chia sẻ chi tiết các bước hướng dẫn viết Stable Diffusion prompt phù hợp để đưa ra tranh vẽ AI tuyệt vời nhất. Thật khó cho những người dùng mới nếu chưa thực sự quen với prompt như này. Đừng lo lắng, bạn có thể theo dõi Genlogin.com để cập nhật thêm nhiều thông tin và hướng dẫn chi tiết hơn nhé!