Dưới đây là mình sử dụng Google Translate để dịch lại bài viết gốc và có lược bỏ bớt một số từ ngữ mà google dịch khó hiểu, mình không chuyên về tiếng anh nên sẽ có nhiều sai sót. Mình sẽ hoàn thiện và đính chính ngay khi có thể. Mong các bạn thông cảm nhé.

VAE là gì trong SD. Cách sử dụng VAE để cải thiện đôi mắt và khuôn mặt

VAE là bản cập nhật một phần cho các mẫu Stable Diffusion 1.4 hoặc 1.5 giúp kết xuất mắt tốt hơn. Tôi sẽ giải thích VAE là gì, bạn có thể mong đợi điều gì, bạn có thể lấy nó ở đâu cũng như cách cài đặt và sử dụng nó.

VAE là gì?

VAE là viết tắt của Bộ mã hóa tự động biến đổi . Nó là một phần của mô hình mạng nơ-ron mã hóa và giải mã hình ảnh đến và đi từ không gian tiềm ẩn nhỏ hơn, để quá trình tính toán có thể nhanh hơn.

VAE stands for variational autoencoder. It is part of the neural network model that encodes and decodes the images to and from the smaller latent space, so that computation can be faster.

Tôi có cần VAE không?

Bạn không cần phải cài đặt tệp VAE để chạy Stable Diffusion—any kiểu máy nào bạn sử dụng, dù là v1, v2 hay tùy chỉnh, đều đã có VAE mặc định.

Khi mọi người nói tải xuống và sử dụng VAE, họ đề cập đến việc sử dụng phiên bản cải tiến của nó. Điều này xảy ra khi trình huấn luyện mô hình tinh chỉnh thêm phần VAE của mô hình với dữ liệu bổ sung. Thay vì phát hành một mô hình hoàn toàn mới, đó là một tệp lớn, họ chỉ phát hành một phần nhỏ đã được cập nhật.

Tác dụng của việc sử dụng VAE là gì?

Thông thường, nó khá nhỏ. VAE cải tiến giải mã hình ảnh tốt hơn từ không gian tiềm ẩn. Chi tiết tốt được phục hồi tốt hơn. Nó giúp hiển thị mắt và văn bản trong đó tất cả các chi tiết nhỏ đều quan trọng.

Ổn định AI đã phát hành hai biến thể của bộ giải mã VAE tinh chỉnh, EMA và MSE. (Trung bình trượt hàm mũ và Lỗi bình phương trung bình là số liệu để đo mức độ tốt của bộ mã hóa tự động.)

Xem so sánh của họ sao chép dưới đây.

So sánh 3 VAE: EMA, MSE và bản gốc.
So sánh độ ổn định của AI giữa EMA, MSE và bộ giải mã ban đầu. (hình ảnh 256×256)

Bạn nên sử dụng cái nào? Đánh giá về độ ổn định với hình ảnh 256×256 là EMA tạo ra hình ảnh sắc nét hơn trong khi hình ảnh của MSE mượt hơn . (Điều đó phù hợp với thử nghiệm của riêng tôi.)

Trong thử nghiệm của riêng tôi về Stable Diffusion v1.4 và v1.5 với hình ảnh 512×512 , tôi nhận thấy những cải tiến tốt trong việc hiển thị mắt ở một số hình ảnh, đặc biệt là khi các khuôn mặt nhỏ. Tôi không thấy bất kỳ cải tiến nào đối với việc hiển thị văn bản, nhưng tôi không nghĩ nhiều người đang sử dụng Stable Diffusion vì lý do này.

Trong mọi trường hợp, VAE mới hoạt động kém hơn. Hoặc làm tốt hơn hoặc không có gì.

Dưới đây là so sánh giữa bản gốc, EMA và MSE sử dụng mô hình Khuếch tán Ổn định v1.5 . (có thể tìm thấy lời nhắc ở đây .) Phóng to và so sánh sự khác biệt.

Các cải tiến đối với việc tạo văn bản không rõ ràng (Đã thêm “giữ một dấu hiệu cho biết Stable Diffusion” vào lời nhắc):

Improvements to text generation are not as clear (Added “holding a sign said Stable Diffusion” to the prompt):

Bạn cũng có thể sử dụng các VAE này với một mô hình tùy chỉnh. Tôi đã thử nghiệm với một số mẫu anime nhưng không thấy cải thiện gì. Tôi khuyến khích bạn làm bài kiểm tra của riêng bạn.

Lưu ý cuối cùng, EMA và MSE tương thích với Stable Diffusion v2.0. Bạn có thể sử dụng chúng nhưng hiệu quả là tối thiểu. 2.0 đã rất tốt trong việc kết xuất mắt. Có lẽ họ đã kết hợp cải tiến cho mô hình.

Tôi có nên sử dụng VAE không?

Bạn không cần sử dụng VAE nếu bạn hài lòng với kết quả mình nhận được. Ví dụ: bạn đã sử dụng tính năng khôi phục khuôn mặt như CodeFormer để sửa mắt.

Bạn nên sử dụng VAE nếu bạn muốn thực hiện tất cả những cải tiến nhỏ mà bạn có thể nhận được. Bạn chỉ cần trải qua sự cố khi thiết lập nó một lần. Sau đó, quy trình sáng tạo nghệ thuật vẫn giữ nguyên.

Làm thế nào để sử dụng VAE?

VAE đã sẵn sàng để sử dụng trong Colab Notebook có trong  Hướng dẫn bắt đầu nhanh .

Tải xuống

Hiện tại, có hai phiên bản cải tiến của VAE do Stability phát hành . Dưới đây là các liên kết tải xuống trực tiếp.

Liên kết tải xuống cho EMA VAE

Liên kết tải xuống cho MSE VAE

Cài đặt

Hướng dẫn cài đặt này áp dụng cho GUI AUTOMATIC1111. Đặt các tệp VAE đã tải xuống vào thư mục

stable-diffusion-webui/models/VAE

Đối với hệ điều hành Linux và Mac

Để thuận tiện cho bạn, hãy chạy các lệnh bên dưới trong Linux hoặc Mac OS trong thư mục ổn định-diffusion-webui tải xuống và cài đặt các tệp VAE.

wget https://huggingface.co/stabilityai/sd-vae-ft-ema-original/resolve/main/vae-ft-ema-560000-ema-pruned.ckpt -O models/VAE/vae-ft-ema-560000-ema-pruned.ckpt
wget https://huggingface.co/stabilityai/sd-vae-ft-mse-original/resolve/main/vae-ft-mse-840000-ema-pruned.ckpt -O models/VAE/vae-ft-mse-840000-ema-pruned.ckpt

Sử dụng

Để sử dụng VAE trong AUTOMATIC1111 GUI, hãy chuyển đến tab Cài đặt và nhấp vào phần Khuếch tán Stabe ở bên trái.

và tìm một phần gọi là SD VAE . Trong menu thả xuống, chọn tệp VAE bạn muốn sử dụng.

Nhấn nút Áp dụng cài đặt lớn màu đỏ ở trên cùng. Bạn sẽ thấy tin nhắn

Settings: sd_vae applied

 

trong tab Setting khi tải thành công.

Các tùy chọn khác trong menu thả xuống là:

  • None : Sử dụng VAE gốc đi kèm với kiểu máy.
  • Auto : xem bài đăng này để biết hành vi. Tôi không khuyên người mới bắt đầu sử dụng Auto vì rất dễ nhầm lẫn VAE nào được sử dụng.

Mẹo chuyên nghiệp: Nếu bạn không thể tìm thấy cài đặt, hãy nhấp vào Show All Pages ở bên trái. Tất cả các cài đặt sẽ được hiển thị trên một trang. Sử dụng Ctrl-F để tìm cài đặt.

Tóm tắt

Chúng ta đã xem qua cách sử dụng hai bộ giải mã VAE cải tiến do Stability AI phát hành. Chúng cung cấp những cải tiến nhỏ nhưng đáng chú ý để hiển thị mắt. Bạn có thể quyết định xem bạn có muốn sử dụng nó hay không.

Tôi đang sử dụng nó vì tôi không thấy bất kỳ trường hợp nào gây hại cho hình ảnh của mình. Tôi hy vọng bài viết này sẽ giúp bạn!

 

Bài viết gốc: https://stable-diffusion-art.com/how-to-use-vae/

Join our newsletter

Volutpat vel turpis nulla lorem sed semper. Aliquam sagittis sem libero viverra vehicula nullam ut nisl.