5 cách tạo video AI với Gemini Omni

Tài liệu này đi thẳng vào thực hành. Mình đã test trực tiếp Gemini Omni — model AI video mới nhất của Google ra tháng 5/2026[1] — và chắt lọc ra 5 cách tạo video phổ biến nhất mà content creator, marketer hay doanh nghiệp đều có thể áp dụng ngay.

Mỗi phần trong tài liệu có: Giải thích khi nào nên dùng cách đó, hướng dẫn bước qua bước, prompt mẫu thực tế có thể copy về thay tên, và mẹo tránh lỗi từ kinh nghiệm test thực. Bạn không cần biết edit video, không cần công cụ nào khác ngoài tài khoản Gemini.

Nội dung bài viết

Nền tảng — Truy cập và bảng giá
Cách 1 — Tạo video từ prompt (text-to-video)
Cách 2 — Tạo video từ ảnh (image-to-video)
Cách 3 — Tạo video từ storyboard
Cách 4 — Tạo video UGC (quảng cáo kiểu người thật)
Cách 5 — Tạo video nhân vật hoạt hình biết nói
Tải bộ prompt mẫu đầy đủ

Nền tảng — Truy cập Gemini Omni

Cách mở Gemini Omni đúng cách

Gemini Omni hoạt động qua Google Flow — không phải gemini.google.com. Flow là workspace chuyên dụng để tạo video AI, có đầy đủ project management, model settings và credit tracker. Vào flow.google.com để bắt đầu. Cần tài khoản Google AI Plus, Pro hoặc Ultra — plan miễn phí không dùng được Gemini Omni Flash.

Các bước tạo video trên Google Flow Mỗi lần dùng

Mở flow.google.com trên máy tính — đăng nhập bằng tài khoản Google đã có gói AI Plus/Pro/Ultra
Bấm "New project" → đặt tên dự án (ví dụ: quảng cáo-sản-phẩm-tháng-6) → tạo project mới
Trong project, bấm "Generate video" hoặc nút tạo clip mới để mở giao diện gen
Vào Settings (biểu tượng bánh răng) → kiểm tra model đang active: chọn Gemini Omni Flash
Chọn aspect ratio: 16:9 (ngang — YouTube) hoặc 9:16 (dọc — TikTok/Reels)
Chọn độ dài clip: 4 / 6 / 8 / 10 giây — bắt đầu với 8 giây cho hầu hết use case
Upload ảnh tham chiếu nếu cần (image-to-video) — kéo thả hoặc bấm nút upload trong panel Assets
Kiểm tra credit cost hiển thị trong settings trước khi bấm Generate — số credit trừ mỗi lần gen có thể thay đổi
Nhập prompt → bấm Generate → chờ video render xong rồi review kỹ trước khi export

Giao diện thực tế trên Google Flow

Trang chủ Google Flow — bấm Dự án mới — Trang chủ **flow.google.com** — Bấm **+ Dự án mới** để tạo project

Cài đặt Video trong Google Flow — Bảng cài đặt trong project: Chọn **Video → 9:16 → Omni Flash → 10s**. Mỗi lần gen tốn **30 tín dụng** — kiểm tra trước khi bấm Generate.

Gen video hao credit rất nhanh

Plan Pro: Cứ khoảng 3 video là cần chờ 5 tiếng để credits reset. Khi test nhiều, hãy ưu tiên thử prompt trên giấy trước, chắc ổn rồi mới gen thật — tránh lãng phí credits vào những lần thử sai cấu trúc.

01 Text-to-Video

Cách 1 — Tạo video từ prompt (không cần ảnh)

Đây là cách đơn giản nhất: Chỉ cần viết mô tả bằng chữ, Gemini Omni tự tạo video từ đầu. Không cần ảnh, không cần file đính kèm gì. Phù hợp khi bạn muốn tạo cảnh quay phong cảnh, cinematic b-roll, explainer animation, hoặc bất kỳ khung hình nào mà bạn chưa có ảnh gốc.

Xác định rõ 4 yếu tố trước khi viết prompt

Prompt text-to-video hiệu quả cần trả lời đủ 4 câu hỏi: Chủ thể là gì? (người, vật, cảnh vật) → Đang làm gì hoặc xảy ra chuyện gì? → Không gian và bối cảnh? (địa điểm, thời điểm trong ngày, thời tiết) → Phong cách hình ảnh? (cinematic, flat animation, drone shot, v.v.). Thiếu bất kỳ yếu tố nào, AI sẽ tự điền theo cách không phải bạn muốn.

Viết prompt theo cấu trúc: Chủ thể + Hành động + Bối cảnh + Phong cách

Gemini Omni hiểu tốt cả tiếng Việt lẫn tiếng Anh — bạn viết tiếng Việt thoải mái. Không cần câu văn hoa mỹ — liệt kê rõ ràng là đủ. Càng cụ thể càng tốt: Thay vì "một người phụ nữ đi bộ" hãy viết "một cô gái trẻ mặc áo dài trắng, đi chậm dọc con sông buổi sáng sớm, sương mù bao phủ". Cuối prompt luôn nêu thời lượng và định dạng.

Prompt mẫu — Cảnh cinematic b-roll quán cà phê

Không gian nội thất quán cà phê Việt Nam vào giờ vàng buổi chiều. Bàn gỗ mộc, cây xanh nhiệt đới, ánh sáng ấm chiếu qua cửa sổ lớn. Một barista đang rót latte art theo kiểu slow motion. Phong cách phim 16mm cinematic, màu sắc ấm áp, xóa phông nông. Không có ai khác ngoài barista. 8 giây, định dạng ngang 16:9.

Ví dụ thực tế — Video được tạo bằng prompt trên với Gemini Omni

Prompt mẫu — Cảnh đường phố TikTok-style

Đường phố Sài Gòn tấp nập lúc chạng vạng tối. Xe máy, biển hiệu đèn neon, hàng quán vỉa hè với ánh đèn cam ấm. Camera cầm tay slow motion, màu hơi desaturate theo tone teal và cam. Cảm giác chân thực như phóng sự đường phố. 8 giây, định dạng dọc 9:16.

Ví dụ thực tế — Video được tạo bằng prompt trên với Gemini Omni

Chỉnh sửa bằng chat nếu kết quả chưa đúng ý

Đây là điểm mạnh nhất của Omni so với các tool cũ: Không cần viết lại prompt từ đầu. Sau khi video được gen, nhắn tiếp trong cùng cuộc hội thoại đó. Omni sẽ chỉnh trên video hiện tại mà không phá vỡ bố cục chung. Ví dụ:

"Làm ánh sáng ấm hơn, vàng hơn một chút"
"Camera di chuyển quá nhanh, cho chậm lại"
"Thêm rung nhẹ như cầm tay cho thật hơn"
"Màu trông hơi bão hoà quá, giảm bớt độ saturate"

Từ khoá phong cách hay dùng

Cinematic · 16mm film · drone aerial · slow motion · timelapse · hyperlapse · handheld · shallow depth of field · golden hour · blue hour · flat 2D animation · isometric · stop motion. Thêm trực tiếp vào cuối prompt để định hướng phong cách nhanh mà không cần giải thích dài.

Khi nào nên dùng text-to-video?

Tốt nhất cho: Cảnh thiên nhiên, bối cảnh chung (đường phố, quán cà phê, văn phòng), b-roll không cần nhân vật cụ thể, animation concept. Nếu cần giữ đúng mặt người hoặc đúng sản phẩm thực tế → dùng image-to-video ở Cách 2.

02 Image-to-Video

Cách 2 — Tạo video từ ảnh

Chỉ cần 1 ảnh là đủ — upload lên, viết prompt mô tả chuyển động, Gemini Omni tự tạo video từ ảnh đó, giữ nguyên chi tiết như trong ảnh gốc. Sản phẩm ra đúng màu, đúng hình dạng, không bị AI "tưởng tượng lại". Áp dụng tốt cho: Ảnh sản phẩm → video showcase; ảnh quán → mood reel; ảnh nhân viên → video giới thiệu team.

Chuẩn bị ảnh

Chỉ cần 1 ảnh rõ nét là Gemini Omni đã có thể tạo video. Để upload: Trong ô nhập prompt, bấm nút upload (biểu tượng ghim) → chọn ảnh từ máy. Upload xong thấy thumbnail ảnh hiện ra là được.

Ảnh càng rõ nét, ánh sáng càng tốt thì kết quả càng giống ảnh gốc
Tránh ảnh bị blur hoặc ánh sáng quá tối
Muốn AI hiểu hình dạng 3D tốt hơn: Upload thêm 1–2 ảnh góc khác (không bắt buộc)

Viết prompt mô tả chuyển động và phong cách

Trong prompt, nói rõ bạn muốn camera di chuyển như thế nào, ánh sáng ra sao, phong cách quảng cáo hay cinematic. Quan trọng: Luôn thêm câu "Giữ nguyên toàn bộ chi tiết như trong ảnh gốc" để AI không tự thay đổi màu sắc hay hình dạng sản phẩm.

Prompt mẫu — Video quảng cáo sản phẩm cao cấp (1 ảnh)

[Upload 1 ảnh sản phẩm rõ nét]

Video quảng cáo chuyên nghiệp 10 giây. Camera pan chậm rãi và tinh tế xung quanh sản phẩm, tôn lên chất liệu cao cấp và các chi tiết bề mặt. Chuyển động xoay mượt mà, liền mạch, kết hợp hiệu ứng zoom-in nhẹ. Ánh đèn studio chuyển dịch uyển chuyển tạo điểm sáng và phản chiếu động trên thân sản phẩm. Phong cách quảng cáo tinh tế, đẳng cấp cao. Xóa phông nông với nền hiện đại mờ nhẹ. Độ phân giải 4K sắc nét, không khí điện ảnh. Giữ nguyên toàn bộ chi tiết như trong ảnh gốc.

Ví dụ thực tế — Video được tạo bằng prompt trên với Gemini Omni

Prompt mẫu — Quảng cáo dọc TikTok/Reels cho sản phẩm

[Upload 1 ảnh sản phẩm]

Tạo video quảng cáo dọc 9:16 ngắn cho mạng xã hội. Dùng ảnh upload làm chủ thể chính. Giây đầu tiên phải thật ấn tượng về mặt hình ảnh — không được mở bằng cảnh tĩnh. Chuyển động camera nhanh nhưng gọn gàng, chuyển cảnh năng động. Video thể hiện sản phẩm trong bối cảnh lifestyle hiện đại. Phong cách: bold, sáng, thu hút ánh nhìn ngay lập tức. Giữ nguyên thiết kế và màu sắc sản phẩm đúng như trong ảnh. Tránh nhịp độ chậm. Tránh nền lộn xộn.

Ví dụ thực tế — Video được tạo bằng prompt trên với Gemini Omni

Kiểm tra và yêu cầu điều chỉnh

Sau khi video gen xong, xem kỹ: Chi tiết sản phẩm có bị méo không, màu có đúng không, chuyển động có tự nhiên không. Nếu chưa đạt, chat thêm trong cùng conversation:

"Màu sản phẩm hơi lệch, chỉnh lại đúng với ảnh gốc hơn"
"Camera di chuyển quá nhanh, cho chậm lại"
"Thêm hiệu ứng zoom nhẹ vào phần chi tiết nổi bật"

1 ảnh là đủ — nhưng thêm ảnh sẽ tốt hơn

Gemini Omni hoạt động tốt chỉ với 1 ảnh. Nếu muốn AI giữ chính xác hình dạng 3D của sản phẩm (đặc biệt khi có logo hoặc chữ cần hiển thị đúng), thêm 1–2 ảnh góc khác nhau sẽ cho kết quả ổn định hơn — nhưng không bắt buộc.

03 Storyboard-to-Video

Cách 3 — Tạo video từ storyboard

Storyboard — hiểu nôm na là một bộ ảnh phác thảo từng cảnh quay, giống như "kịch bản hình ảnh" trước khi quay thật — cho phép bạn kiểm soát câu chuyện trước khi AI làm video. Thay vì mô tả bằng chữ và phó mặc AI, bạn gen ảnh từng cảnh trước bằng ChatGPT hoặc Midjourney, rồi đưa cho Omni dùng làm tài liệu tham chiếu.

Tạo storyboard trước bằng ChatGPT hoặc Midjourney

Mở ChatGPT (phiên bản có gen ảnh) hoặc Midjourney, yêu cầu tạo 4–6 panel storyboard theo câu chuyện bạn muốn kể. Giữ cùng một phong cách nghệ thuật cho tất cả panel — cùng art style, cùng bảng màu, cùng kiểu line — để Omni hiểu đây là một câu chuyện liên tục, không phải những cảnh rời rạc. Lưu từng panel thành ảnh riêng.

Prompt tạo storyboard trên ChatGPT

Tạo storyboard 4 panel cho một video animation ngắn về chủ đề [CHỦ ĐỀ]. Phong cách minh hoạ flat 2D, bảng màu ấm áp, nét vẽ gọn gàng. Mỗi panel thể hiện một cảnh:
Panel 1: [MÔ TẢ CẢNH 1].
Panel 2: [MÔ TẢ CẢNH 2].
Panel 3: [MÔ TẢ CẢNH 3].
Panel 4: [MÔ TẢ CẢNH 4].
Giữ nguyên thiết kế nhân vật và bảng màu thống nhất xuyên suốt các panel.

Chia nhỏ — gen từng đoạn thay vì nhét hết vào một lần

Đây là bài học quan trọng nhất khi làm storyboard: Đừng upload tất cả 6 panel vào một prompt và yêu cầu gen video 10 giây. Omni thường bị stall (đứng chờ mãi không gen) khi phải xử lý quá nhiều cảnh cùng lúc. Chia làm 2–3 đợt:

Đợt 1: Upload panel 1–2, gen video clip 4–6 giây cho 2 cảnh đầu
Đợt 2: Upload panel 3–4, gen clip tiếp theo
Ghép lại: Dùng CapCut, DaVinci Resolve, hoặc bất kỳ app edit video nào để nối các clip lại — hoặc có thể ghép ngay trên Omni

Viết prompt cho từng đoạn storyboard

Panel 1 — Khởi đầu sự hào hứng

Góc máy trung cinematic trong quán cà phê bóng đá nhộn nhịp vào ban đêm, ánh sáng neon và ánh TV nhấp nháy sôi động. Cận cảnh một chàng trai trẻ đang cười, tay cầm điện thoại mở ứng dụng đặt cược bóng đá, nhấn nút xác nhận một khoản cược nhỏ. Phong cách điện ảnh chân thật, độ sâu trường ảnh nông, hiệu ứng nhiễu hạt phim (film grain), không khí sôi nổi đầy năng lượng.

Panel 2 — Vòng xoáy sa ngã (Montage nhanh)

Chuỗi cắt cảnh nhanh (fast montage) đầy căng thẳng bằng máy quay cầm tay rung nhẹ. Cận cảnh một bàn tay liên tục nhấn nút nạp tiền trên màn hình điện thoại, các thông báo thua cược màu đỏ hiện lên liên tiếp. Góc máy chuyển sang một đôi mắt đỏ ngầu vì thiếu ngủ trong một căn phòng ngày càng tối tăm, bừa bộn vỏ lon và rác. Tông màu u tối, áp lực, phong cách phim tài liệu điện ảnh chân thật.

Panel 3 — Tuyệt vọng và cô độc

Góc quay rộng chậm rãi kéo lùi (slow doll-out) trong căn phòng tối bừa bộn. Một chàng trai ngồi cô độc trên ghế, gương mặt trống rỗng và tuyệt vọng được chiếu sáng bởi ánh sáng xanh lạnh lẽo từ màn hình điện thoại. Màn hình hiện rõ dòng chữ "Số dư: 0" và nhiều cuộc gọi nhỡ từ gia đình. Ngoài cửa sổ mờ ảo là bóng người đang ăn mừng. Phong cách điện ảnh tâm lý, giàu cảm xúc, đổ bóng sâu (high contrast).

Panel 4 — Tỉnh ngộ và thông điệp làm lại từ đầu

Cảnh quay chậm (slow-motion) góc thấp dưới ánh nắng bình minh ấm áp trên sân bóng đá cỏ xanh. Chàng trai thực hiện thao tác xóa ứng dụng cá cược trên màn hình điện thoại, sau đó cất máy và bước chạy vào sân bóng cùng bạn bè đang vẫy tay cười. Không khí bình yên, tích cực, ánh sáng cinematic ngập tràn. Cuối video hiện dòng chữ lớn, rõ nét: "World Cup chỉ kéo dài vài tuần. Hậu quả có thể kéo dài nhiều năm."

2 panel storyboard ghép lại — Ví dụ — Upload 2 panel storyboard cùng lúc vào Gemini Omni, sau đó ghép 2 video output thành 1 video dài

Ví dụ thực tế — Video được ghép từ 4 panel storyboard trên với Gemini Omni

Nhân vật có thể bị "drift" giữa các clip

Chi tiết nhỏ như màu áo, kiểu tóc, đặc điểm khuôn mặt đôi khi thay đổi nhẹ giữa các clip được gen riêng biệt. Để hạn chế: Luôn upload lại panel storyboard gốc khi gen từng đoạn mới, và mô tả lại chi tiết nhân vật trong prompt (màu tóc, trang phục, màu da).

04 UGC-Style Ads

Cách 4 — Tạo video UGC (quảng cáo kiểu người thật)

UGC — viết tắt của User Generated Content, tức nội dung do người dùng tự tạo — là format quảng cáo đang chạy rất hiệu quả trên TikTok và Facebook Ads. Kiểu video này trông như một người thật đang giới thiệu sản phẩm cho bạn bè, không phải quảng cáo "nhà làm" chỉnh chu quá mức. Thuê creator UGC thật tốn $200–500 mỗi video. Omni cho phép gen video tương tự từ ảnh người và ảnh sản phẩm.

Chuẩn bị 2 loại ảnh

Ảnh người: Chọn ảnh chân dung rõ mặt, ánh sáng tốt, nền đơn giản. Tránh ảnh nhóm — AI sẽ không biết tập trung vào ai. Không nhất thiết phải là ảnh chuyên nghiệp, nhưng phải đủ rõ để AI nhận ra đặc điểm khuôn mặt.

Ảnh sản phẩm: Upload 2–3 ảnh từ các góc khác nhau để AI không bị méo hình khi animation. Đặc biệt nếu sản phẩm có logo hoặc text quan trọng cần hiển thị chính xác — thêm ảnh cận phần đó.

Viết prompt mô tả cảnh quay UGC

Prompt UGC cần rõ 3 thứ: Người đang ở đâu, đang làm gì với sản phẩm, và họ nói gì nếu có lip sync. Giữ script thoại dưới 15 từ cho video 8 giây — nếu dài hơn AI sẽ cắt giữa chừng hoặc nói nhanh bất thường.

Prompt mẫu — UGC video sản phẩm

[Upload: 1 ảnh người rõ mặt + 2–3 ảnh sản phẩm các góc khác nhau]

Tạo video quảng cáo kiểu UGC 10 giây, định dạng dọc 9:16. Người trong ảnh đi bộ về phía camera trên con đường nắng đẹp ở Sài Gòn. Họ đang cầm/mặc [SẢN PHẨM], tự nhiên và tự tin. Họ nhìn thẳng vào camera, mỉm cười và nói (có lip sync): "[CÂU THOẠI — tối đa 15 từ]". Giữ nguyên khuôn mặt người đúng với ảnh tham chiếu. Giữ nguyên thiết kế sản phẩm đúng với ảnh sản phẩm. Phong cách: UGC cầm tay chân thực, ánh sáng tự nhiên, màu hơi ấm. Không chèn chữ.

Prompt mẫu — UGC tai nghe chống ồn (thực tế)

Video UGC dọc 9:16, 10 giây, quay điện thoại tại quán cà phê đông người, phong cách chân thực, nhịp cắt nhanh, phụ đề tiếng Việt, 4K.
0–3s: Nhân vật làm việc, khó chịu vì tiếng ồn — nói: "Tôi không hiểu sao mình từng làm việc được ở quán cà phê ồn ào thế này."
3–6s: Đeo tai nghe, chạm nút chống ồn, tiếng ồn biến mất — nói: "Chỉ một cú chạm, mọi tiếng ồn biến mất."
6–9s: Làm việc tập trung, biểu cảm thoải mái — nói: "Âm thanh cực kỳ trong trẻo, đeo nhiều giờ vẫn rất dễ chịu."
9–10s: Nhìn vào camera, chỉ xuống dưới — nói: "Cần tập trung? Xem thử em này nhé."
Sản phẩm rõ nét trong từng cảnh. Phong cách UGC tự nhiên.

Ví dụ thực tế — Video được tạo bằng prompt trên với Gemini Omni

Prompt mẫu — UGC máy xay sinh tố cầm tay (thực tế)

Close-up POV shot. A young woman in a bright kitchen drops fresh strawberries and blueberries into a compact portable blender, presses the button, blender starts instantly. Water droplets on the glass, vibrant colors, sunny morning aesthetic, handheld camera movement, 10 seconds, high-definition.

Voice-over (tiếng Việt): "Sáng nào cũng làm một ly sinh tố tươi ngay tại bàn làm việc. Nhỏ gọn, xay cực nhanh mà nhìn mê xỉu luôn á. Must-have cho mấy bà bận rộn nha!"

Ví dụ thực tế — Video được tạo bằng prompt trên với Gemini Omni

Prompt mẫu — UGC thời trang đường phố Sài Gòn

[Upload 1 ảnh người mặc sản phẩm]

Tạo video UGC 10 giây, dọc 9:16. Người trong ảnh bước đi tự nhiên trên đường phố trung tâm Sài Gòn, background urban lifestyle hiện đại, nắng chiều đẹp. Người mẫu đang mặc chiếc áo, vừa đi vừa chỉnh cổ áo tự nhiên. Nhìn vào camera, cười tự tin và nói tiếng Việt: "Mặc lên là thấy khác ngay, cực kỳ hợp outfit hằng ngày." Phong cách UGC TikTok chân thật, handheld, ánh sáng tự nhiên, warm tone, premium realistic. Không chèn text.

Ví dụ thực tế — Video được tạo bằng prompt trên với Gemini Omni

Test nhiều phiên bản để tìm cái convert tốt nhất

Sức mạnh thật sự của UGC AI là gen nhiều phiên bản với cùng ngân sách mà không cần thuê thêm creator. Sau khi có prompt hoạt động tốt, thử thay đổi: Cảnh quay (trong nhà vs ngoài trời), tông màu (ấm vs mát), câu thoại (benefit-focused vs lifestyle-focused). Chạy A/B test để xem cái nào convert tốt hơn trước khi đổ tiền ads.

Lip sync hoạt động tốt hơn nhiều người nghĩ

Omni sync môi với thoại khá chính xác với tiếng Anh. Để tối ưu: Viết script ngắn gọn, dùng câu đơn giản không có âm khó, và đặt rõ "with lip sync" trong prompt. Nếu lip sync không khớp sau lần đầu, thử lại với script ít từ hơn.

05 Talking Character

Cách 5 — Tạo video nhân vật hoạt hình biết nói

Format "nhân vật hoạt hình tự giới thiệu" đang viral mạnh — quả bơ giải thích tại sao nên ăn nó, cái dạ dày phàn nàn về đồ ăn, một chú vi trùng dạy vệ sinh tay. Absurd đủ để người ta dừng lại xem, entertaining đủ để share. Trước đây cần animator chuyên nghiệp mất vài ngày. Giờ từ một prompt là ra trong vài phút.

Thiết kế nhân vật rõ ràng trước khi viết prompt

Xác định 4 thứ: Nhân vật là gì (vật, động vật, khái niệm được nhân cách hoá) → trông như thế nào (màu sắc, đặc điểm nổi bật, kích thước) → tính cách (tự tin, hài hước, dramatic, sarcastic) → đang ở đâu (bối cảnh phù hợp với nhân vật). Càng cụ thể thì AI càng không phải tự bịa, kết quả càng ổn định và dễ lặp lại.

Tính toán độ dài script theo công thức trước khi viết prompt

Bước quan trọng nhất để tránh video bị cắt ngang: tốc độ nói trung bình trong video hoạt hình là khoảng 2–2.5 từ mỗi giây. Đếm từ trong script trước, rồi mới chọn độ dài video phù hợp:

Video 4 giây → tối đa 8–10 từ
Video 6 giây → tối đa 12–15 từ
Video 8 giây → tối đa 16–20 từ
Video 10 giây → tối đa 20–25 từ

Viết prompt và gen

Prompt mẫu — Nhân vật quả táo hoạt hình (thực tế)

Nhân vật quả táo hoạt hình đáng yêu, được nhân cách hoá với mắt to biểu cảm và nụ cười thân thiện, đang nói hào hứng và dùng cử chỉ tay khuyên ăn táo tốt cho sức khoẻ mỗi ngày. Phong cách 3D animation kiểu Pixar, màu sắc rực rỡ, ánh đèn studio sáng. Ngôn ngữ tiếng Việt.

Ví dụ thực tế — Video được tạo bằng prompt trên với Gemini Omni

Prompt mẫu — Nhân vật ly trà sữa quảng cáo khuyến mãi

Nhân vật ly trà sữa hoạt hình dễ thương với đôi mắt long lanh, đang vui vẻ nhảy nhẹ và nói đầy năng lượng bằng tiếng Việt. Tay cầm ống hút và chỉ vào camera, truyền tải thông điệp: "Mua 1 tặng 1 duy nhất hôm nay, ghé ngay để không bỏ lỡ ưu đãi." Phong cách Pixar 3D, ánh sáng studio, commercial animation, ultra realistic texture.

Ví dụ thực tế — Video được tạo bằng prompt trên với Gemini Omni

Lặp lại và tinh chỉnh sau mỗi lần gen

Lần đầu gen thường chưa hoàn hảo — expression chưa đủ mạnh, animation chưa smooth, hoặc character design chưa đúng ý. Sau 2–3 lần chỉnh qua chat là ra đúng ý. Ví dụ các câu chỉnh hay dùng:

"Biểu cảm nhân vật chưa đủ mạnh, làm phóng đại và kịch tính hơn"
"Chuyển động trông cứng quá, thêm bounce cho sinh động hơn"
"Đổi màu nền thành tông tối hơn một chút"
"Lip sync chưa khớp, sync lại kỹ hơn"

Ý tưởng nhân vật hay dùng cho content Việt

Sản phẩm tự giới thiệu mình · Một nguyên liệu giải thích công dụng · Con số được nhân cách hoá ("Tui là 70% nước trong cơ thể bạn") · Một concept trừu tượng như thời gian, tiền bạc, deadline · Mascot thương hiệu biết nói. Format hoạt động tốt nhất khi có yếu tố bất ngờ — người xem không đoán được nhân vật sẽ nói gì.

Nếu muốn nhân vật nói tiếng Việt

Omni hiểu tiếng Việt nhưng quality lip sync với tiếng Việt chưa tốt bằng tiếng Anh. Giải pháp thực tế: Gen video nhân vật không có thoại (chỉ biểu cảm và cử chỉ), sau đó thêm voiceover tiếng Việt bằng ElevenLabs hoặc tự thu âm, rồi ghép vào bằng CapCut.

Tải bộ prompt mẫu đầy đủ

Tổng hợp tất cả prompt mẫu của 5 use case vào một bộ file. Tải về, mở từng file, thay phần IN HOA bằng nội dung thực của bạn là dùng được ngay — không cần chỉnh cấu trúc.

Bộ Prompt Gemini Omni — 5 Use Case

Gemini Omni 5 file · 10 prompts Dùng ngay

5 file prompt (1 file mỗi use case), tổng 10 prompt mẫu. Tải về dạng .zip, giải nén ra 5 file .txt, mở bằng bất kỳ trình soạn thảo nào — Notepad, VS Code, hay thẳng vào Google Docs.

01-text-to-video.txt

USE CASE 1: TẠO VIDEO TỪ PROMPT (Text-to-Video)
================================================

PROMPT MẪU 1 — Cảnh cinematic b-roll quán cà phê:
---------------------------------------------------
Không gian nội thất quán cà phê Việt Nam vào giờ vàng buổi chiều. Bàn gỗ mộc, cây xanh nhiệt đới, ánh sáng ấm chiếu qua cửa sổ lớn. Một barista đang rót latte art theo kiểu slow motion. Phong cách phim 16mm cinematic, màu sắc ấm áp, xóa phông nông. Không có ai khác ngoài barista. 8 giây, định dạng ngang 16:9.

PROMPT MẪU 2 — Cảnh đường phố TikTok-style:
---------------------------------------------
Đường phố Sài Gòn tấp nập lúc chạng vạng tối. Xe máy, biển hiệu đèn neon, hàng quán vỉa hè với ánh đèn cam ấm. Camera cầm tay slow motion, màu hơi desaturate theo tone teal và cam. Cảm giác chân thực như phóng sự đường phố. 8 giây, định dạng dọc 9:16.

CẤU TRÚC PROMPT CHUẨN:
[Chủ thể] + [Hành động / điều đang xảy ra] + [Bối cảnh / địa điểm] + [Phong cách hình ảnh] + [Thời lượng và định dạng]

TỪ KHOÁ PHONG CÁCH THƯỜNG DÙNG (giữ nguyên tiếng Anh để AI nhận diện đúng):
cinematic · 16mm film · drone aerial · slow motion · timelapse · handheld · shallow depth of field · golden hour · blue hour · flat 2D animation · isometric

CHỈNH SỬA SAU KHI GEN (chat tiếp trong cùng conversation):
"Làm ánh sáng ấm hơn, vàng hơn"
"Camera di chuyển quá nhanh, cho chậm lại"
"Thêm rung nhẹ như cầm tay cho thật hơn"
"Màu trông hơi bão hoà quá, giảm bớt độ saturate"

02-image-to-video.txt

USE CASE 2: TẠO VIDEO TỪ ẢNH (Image-to-Video)
===============================================

CHỈ CẦN 1 ẢNH LÀ ĐỦ ĐỂ TẠO VIDEO.

PROMPT MẪU 1 — Video quảng cáo sản phẩm cao cấp:
--------------------------------------------------
[Upload 1 ảnh sản phẩm rõ nét]

Video quảng cáo chuyên nghiệp 10 giây. Camera pan chậm rãi và tinh tế xung quanh sản phẩm, tôn lên chất liệu cao cấp và các chi tiết bề mặt. Chuyển động xoay mượt mà, liền mạch, kết hợp hiệu ứng zoom-in nhẹ. Ánh đèn studio chuyển dịch uyển chuyển tạo điểm sáng và phản chiếu động trên thân sản phẩm. Phong cách quảng cáo tinh tế, đẳng cấp cao. Xóa phông nông với nền hiện đại mờ nhẹ. Độ phân giải 4K sắc nét, không khí điện ảnh. Giữ nguyên toàn bộ chi tiết như trong ảnh gốc.

PROMPT MẪU 2 — Quảng cáo dọc TikTok/Reels cho sản phẩm:
---------------------------------------------------------
[Upload 1 ảnh sản phẩm]

Tạo video quảng cáo dọc 9:16 ngắn cho mạng xã hội. Dùng ảnh upload làm chủ thể chính. Giây đầu tiên phải thật ấn tượng về mặt hình ảnh — không được mở bằng cảnh tĩnh. Chuyển động camera nhanh nhưng gọn gàng, chuyển cảnh năng động. Video thể hiện sản phẩm trong bối cảnh lifestyle hiện đại. Phong cách: bold, sáng, thu hút ánh nhìn ngay lập tức. Giữ nguyên thiết kế và màu sắc sản phẩm đúng như trong ảnh. Tránh nhịp độ chậm. Tránh nền lộn xộn.

MẸO:
- 1 ảnh rõ nét là đủ
- Muốn AI giữ chính xác hình 3D: thêm 1–2 ảnh góc khác (không bắt buộc)
- Luôn thêm câu: "Giữ nguyên toàn bộ chi tiết như trong ảnh gốc"

03-storyboard-to-video.txt

USE CASE 3: TẠO VIDEO TỪ STORYBOARD (Storyboard-to-Video)
==========================================================

BƯỚC 1 — Tạo storyboard trên ChatGPT:
---------------------------------------
Tạo storyboard 4 panel cho một video animation ngắn về chủ đề [CHỦ ĐỀ]. Phong cách minh hoạ flat 2D, bảng màu ấm áp, nét vẽ gọn gàng. Mỗi panel thể hiện một cảnh:
Panel 1: [MÔ TẢ CẢNH 1].
Panel 2: [MÔ TẢ CẢNH 2].
Panel 3: [MÔ TẢ CẢNH 3].
Panel 4: [MÔ TẢ CẢNH 4].
Giữ nguyên thiết kế nhân vật và bảng màu thống nhất xuyên suốt các panel.

BƯỚC 2 — Gen video từng đoạn trên Gemini Omni:
------------------------------------------------
[Upload panel 1 và panel 2]

Tạo video animation 6 giây theo đúng 2 panel storyboard này.
Cảnh 1 (0–3 giây): [mô tả cảnh 1 theo đúng hình].
Cảnh 2 (3–6 giây): [mô tả cảnh 2].
Giữ nguyên phong cách nghệ thuật, thiết kế nhân vật và bảng màu như trong các panel tham chiếu. Chuyển cảnh mượt mà. Không có lời thoại, chỉ nhạc nền.

QUY TẮC VÀNG:
- ĐỪNG nhét hết 6 panel vào 1 prompt — Omni sẽ bị stall
- Gen từng 2 panel riêng, sau đó ghép bằng CapCut hoặc DaVinci
- Upload lại panel gốc mỗi lần gen đoạn mới để giữ nhất quán nhân vật

04-ugc-video.txt

USE CASE 4: TẠO VIDEO UGC (UGC-Style Ads)
==========================================

PROMPT MẪU — UGC video sản phẩm:
----------------------------------
[Upload: 1 ảnh người rõ mặt + 2–3 ảnh sản phẩm các góc khác nhau]

Tạo video quảng cáo kiểu UGC 10 giây, định dạng dọc 9:16. Người trong ảnh đi bộ về phía camera trên con đường nắng đẹp ở Sài Gòn. Họ đang cầm/mặc [SẢN PHẨM], tự nhiên và tự tin. Họ nhìn thẳng vào camera, mỉm cười và nói (có lip sync): "[CÂU THOẠI — tối đa 15 từ]". Giữ nguyên khuôn mặt người đúng với ảnh tham chiếu. Giữ nguyên thiết kế sản phẩm đúng với ảnh sản phẩm. Phong cách: UGC cầm tay chân thực, ánh sáng tự nhiên, màu hơi ấm. Không chèn chữ.

CÔNG THỨC TÍNH ĐỘ DÀI SCRIPT:
- Video 6 giây → tối đa 12–15 từ
- Video 8 giây → tối đa 16–20 từ
- Video 10 giây → tối đa 20–25 từ

MẸO A/B TEST:
Sau khi có 1 prompt hoạt động, tạo thêm phiên bản với:
- Cảnh khác nhau (trong nhà / ngoài trời)
- Tone khác nhau (năng động / nhẹ nhàng)
- Script tập trung benefit vs script lifestyle

05-talking-character.txt

USE CASE 5: TẠO VIDEO NHÂN VẬT HOẠT HÌNH BIẾT NÓI (Talking Character)
=======================================================================

PROMPT MẪU:
-----------
Tạo video animation 8 giây với nhân vật [MÔ TẢ NHÂN VẬT — vd: quả bơ hoạt hình dễ thương, mắt to biểu cảm, tay nhỏ xíu]. Nhân vật mang tính cách [TÍNH CÁCH — vd: tự tin và hơi kịch tính]. Bối cảnh: [BỐI CẢNH — vd: đứng trên mặt bếp dưới ánh đèn spotlight ấm, nền trắng]. Nhân vật nhìn thẳng vào camera và nói có lip sync: "[CÂU THOẠI]". Biểu cảm thay đổi tự nhiên khi nói. Phong cách: flat 2D animation, nét đậm rõ ràng, màu sắc tươi sáng, chuyển động mượt. Không có nhân vật nào khác.

CÔNG THỨC TÍNH ĐỘ DÀI SCRIPT (2–2.5 từ/giây):
- Video 4 giây → tối đa 8–10 từ
- Video 6 giây → tối đa 12–15 từ
- Video 8 giây → tối đa 16–20 từ
- Video 10 giây → tối đa 20–25 từ

CHỈNH SỬA SAU KHI GEN:
"Biểu cảm nhân vật chưa đủ mạnh, làm phóng đại hơn"
"Thêm bounce cho chuyển động sinh động hơn"
"Nhân vật trông cứng quá, làm linh hoạt lại"
"Đổi nền thành [MÀU / CẢNH KHÁC]"

MẸO NẾU MUỐN TIẾNG VIỆT:
Gen video nhân vật không có thoại (chỉ biểu cảm + cử chỉ), sau đó:
- Thêm voiceover tiếng Việt bằng ElevenLabs hoặc tự thu âm
- Ghép audio vào video bằng CapCut

Thực hành ngay hôm nay

Tải bộ prompt, mở Gemini lên, chọn 1 trong 5 cách và bắt đầu. Không cần kinh nghiệm video editing.

Theo dõi Cường Mê AI