Hướng Dẫn Toàn Diện: Gemini Flash TTS — Chuyển Văn Bản Thành Giọng Nói AI Chuyên Nghiệp

Cập nhật: Tháng 4/2026 — Bao gồm cả Gemini 2.5 Flash TTS và Gemini 3.1 Flash TTS Preview mới nhất.

1. Gemini Flash TTS Là Gì?

Gemini Flash TTS là dòng mô hình Text-to-Speech (chuyển văn bản thành giọng nói) của Google DeepMind, được tích hợp trực tiếp vào Gemini API. Không giống các hệ thống TTS truyền thống chỉ đơn thuần "đọc chữ", Gemini Flash TTS hoạt động như một diễn viên lồng tiếng ảo — bạn có thể đạo diễn cách nó nói: giọng điệu, cảm xúc, tốc độ, accent, và cả phong cách biểu diễn.

Các phiên bản hiện có

Model	Model ID	Đặc điểm
Gemini 2.5 Flash TTS	`gemini-2.5-flash-preview-tts`	Tối ưu độ trễ thấp, tốc độ nhanh
Gemini 2.5 Pro TTS	`gemini-2.5-pro-tts`	Tối ưu chất lượng cao nhất
Gemini 3.1 Flash TTS (mới nhất)	`gemini-3.1-flash-tts-preview`	Hỗ trợ audio tags, 70+ ngôn ngữ, tự nhiên nhất

Điểm nổi bật

30 giọng nói tích hợp sẵn với các phong cách khác nhau (ấm áp, chuyên nghiệp, sôi nổi, nhẹ nhàng...)
Hỗ trợ đa ngôn ngữ: 70+ ngôn ngữ bao gồm tiếng Việt
Multi-speaker: Tạo hội thoại với nhiều giọng nói khác nhau (lên đến 2 speaker)
Kiểm soát phong cách bằng ngôn ngữ tự nhiên: Mô tả cách bạn muốn AI nói thay vì cài đặt kỹ thuật phức tạp
SynthID watermark: Tất cả audio được đánh dấu bằng SynthID để nhận diện nội dung AI

2. Bắt Đầu Nhanh — Không Cần Code

Cách 1: Dùng Google AI Studio (Miễn phí, nhanh nhất)

Đây là cách đơn giản nhất để thử nghiệm, không cần viết code.

Bước 1: Truy cập aistudio.google.com

Bước 2: Đăng nhập bằng tài khoản Google

Bước 3: Chọn mục "Generate Speech" hoặc "Audio Playground"

Bước 4: Chọn model gemini-3.1-flash-tts-preview (hoặc gemini-2.5-flash-preview-tts)

Bước 5: Chọn giọng nói (voice) từ danh sách 30 giọng

Bước 6: Nhập văn bản cần chuyển đổi → Nhấn Generate

Bước 7: Nghe thử và tải file audio về

Cách 2: Dùng Voice Library Applet

Truy cập Voice Library để thử nghiệm trực tiếp tất cả 30 giọng nói với các phong cách khác nhau.

3. Hướng Dẫn Sử Dụng API (Dành Cho Lập Trình Viên)

3.1 Cài đặt môi trường

Yêu cầu: Python 3.9+ và API key từ Google AI Studio.

# Cài đặt SDK
pip install google-genai

# Lấy API key tại: https://aistudio.google.com/apikey
# Đặt biến môi trường
export GEMINI_API_KEY="your-api-key-here"

3.2 Tạo audio đơn giản (Single Speaker)

from google import genai
from google.genai import types
import wave

# Hàm lưu file WAV
def save_wave(filename, pcm, channels=1, rate=24000, sample_width=2):
    with wave.open(filename, "wb") as wf:
        wf.setnchannels(channels)
        wf.setsampwidth(sample_width)
        wf.setframerate(rate)
        wf.writeframes(pcm)

# Khởi tạo client
client = genai.Client(api_key="YOUR_API_KEY")

# Tạo audio
response = client.models.generate_content(
    model="gemini-2.5-flash-preview-tts",
    contents="Xin chào! Hôm nay là một ngày tuyệt vời để học về AI.",
    config=types.GenerateContentConfig(
        response_modalities=["AUDIO"],
        speech_config=types.SpeechConfig(
            voice_config=types.VoiceConfig(
                prebuilt_voice_config=types.PrebuiltVoiceConfig(
                    voice_name='Kore',  # Chọn giọng nói
                )
            )
        ),
    )
)

# Lưu file
audio_data = response.candidates[0].content.parts[0].inline_data.data
save_wave("xin_chao.wav", audio_data)
print("Đã lưu file xin_chao.wav thành công!")

3.3 Tạo hội thoại nhiều giọng (Multi-Speaker)

from google import genai
from google.genai import types
import wave

def save_wave(filename, pcm, channels=1, rate=24000, sample_width=2):
    with wave.open(filename, "wb") as wf:
        wf.setnchannels(channels)
        wf.setsampwidth(sample_width)
        wf.setframerate(rate)
        wf.writeframes(pcm)

client = genai.Client(api_key="YOUR_API_KEY")

# Kịch bản hội thoại
prompt = """TTS the following conversation between Minh and Lan:
Minh: Chào Lan! Hôm nay bạn có khỏe không?
Lan: Chào Minh! Mình khỏe lắm, cảm ơn bạn. Bạn đã nghe tin về AI mới chưa?
Minh: Chưa, kể mình nghe đi!
Lan: Google vừa ra mắt Gemini Flash TTS, chuyển văn bản thành giọng nói cực kỳ tự nhiên!
"""

response = client.models.generate_content(
    model="gemini-2.5-flash-preview-tts",
    contents=prompt,
    config=types.GenerateContentConfig(
        response_modalities=["AUDIO"],
        speech_config=types.SpeechConfig(
            multi_speaker_voice_config=types.MultiSpeakerVoiceConfig(
                speaker_voice_configs=[
                    types.SpeakerVoiceConfig(
                        speaker='Minh',
                        voice_config=types.VoiceConfig(
                            prebuilt_voice_config=types.PrebuiltVoiceConfig(
                                voice_name='Kore',  # Giọng nam
                            )
                        )
                    ),
                    types.SpeakerVoiceConfig(
                        speaker='Lan',
                        voice_config=types.VoiceConfig(
                            prebuilt_voice_config=types.PrebuiltVoiceConfig(
                                voice_name='Aoede',  # Giọng nữ
                            )
                        )
                    ),
                ]
            )
        )
    )
)

audio_data = response.candidates[0].content.parts[0].inline_data.data
save_wave("hoi_thoai.wav", audio_data)
print("Đã lưu file hoi_thoai.wav!")

3.4 Kiểm soát phong cách bằng Prompt (Tính năng mạnh nhất)

Đây là điểm khác biệt lớn nhất của Gemini TTS. Bạn viết "kịch bản đạo diễn" bằng ngôn ngữ tự nhiên:

# Prompt đầy đủ với Audio Profile + Scene + Director's Notes
prompt = """
# AUDIO PROFILE: Hà Linh
## "Bản tin công nghệ sáng"

## THE SCENE: Phòng thu podcast
Hà Linh ngồi trong phòng thu nhỏ xinh, ánh đèn ấm, trên bàn là ly cà phê
nóng. Không khí thoải mái, gần gũi như đang trò chuyện với bạn bè.

### DIRECTOR'S NOTES
Style:
* Giọng ấm áp, thân thiện như đang kể chuyện cho bạn nghe
* Thỉnh thoảng có chút hài hước nhẹ nhàng
* Nhấn mạnh các con số và tên sản phẩm

Pace: Tốc độ vừa phải, không quá nhanh. Chậm lại khi nói đến
thông tin quan trọng.

Accent: Vietnamese, giọng Hà Nội tự nhiên

### TRANSCRIPT
Xin chào các bạn! Chào mừng các bạn đến với bản tin công nghệ sáng thứ Ba.
Hôm nay mình có một tin cực kỳ thú vị. Google vừa ra mắt Gemini 3.1 Flash TTS,
và nói thật với các bạn, mình đã thử rồi và... wow, giọng nói tự nhiên
đến mức mình phải kiểm tra lại hai lần xem có phải người thật không!
"""

response = client.models.generate_content(
    model="gemini-2.5-flash-preview-tts",
    contents=prompt,
    config=types.GenerateContentConfig(
        response_modalities=["AUDIO"],
        speech_config=types.SpeechConfig(
            voice_config=types.VoiceConfig(
                prebuilt_voice_config=types.PrebuiltVoiceConfig(
                    voice_name='Leda',
                )
            )
        ),
    )
)

4. Bảng Tra Cứu 30 Giọng Nói

Giọng	Phong cách	Phù hợp cho
Zephyr	Tươi sáng	Quảng cáo, giới thiệu sản phẩm
Puck	Sôi nổi, vui vẻ	Podcast giải trí, video vui
Charon	Thông tin, rõ ràng	Tin tức, bài giảng
Kore	Chắc chắn, vững chãi	Thuyết trình, báo cáo
Fenrir	Phấn khích, hào hứng	Giới thiệu game, thể thao
Leda	Trẻ trung	Content cho giới trẻ
Orus	Nghiêm túc	Tài liệu chuyên nghiệp
Aoede	Nhẹ nhàng, thoáng	Thiền, wellness, ASMR
Callirrhoe	Thoải mái	Audiobook, kể chuyện
Autonoe	Tươi sáng	Marketing, social media
Enceladus	Thở nhẹ, thì thầm	Nội dung nhẹ nhàng
Iapetus	Trong trẻo	E-learning, hướng dẫn
Umbriel	Dễ chịu	Chatbot, trợ lý ảo
Algieba	Mượt mà	Quảng cáo cao cấp
Despina	Mượt mà	Nội dung thương hiệu
Erinome	Rõ ràng	Tài liệu kỹ thuật
Algenib	Trầm, khàn	Nội dung nam tính
Rasalgethi	Thông thái	Documentary, phim tài liệu
Laomedeia	Vui vẻ	Video cho trẻ em
Achernar	Nhẹ nhàng, mềm	Nội dung cảm xúc
Alnilam	Vững chãi	Thuyết trình doanh nghiệp
Schedar	Đều đặn	Đọc sách, tường thuật
Gacrux	Trưởng thành	Nội dung chuyên gia
Pulcherrima	Mạnh mẽ	Trailer, quảng cáo mạnh
Achird	Thân thiện	Chatbot dịch vụ khách hàng
Zubenelgenubi	Thoải mái	Podcast casual
Vindemiatrix	Dịu dàng	Nội dung chăm sóc
Sadachbia	Sống động	Event, MC ảo
Sadaltager	Uyên bác	Giáo dục chuyên sâu
Sulafat	Ấm áp	Nội dung gia đình

5. Gemini 3.1 Flash TTS — Tính Năng Mới Nhất (Tháng 4/2026)

Phiên bản mới nhất mang đến bước nhảy vọt so với 2.5:

Audio Tags — Điều khiển chi tiết trong văn bản

Gemini 3.1 cho phép chèn các audio tags trực tiếp vào transcript để kiểm soát phong cách đọc từng đoạn, từng câu. Bạn có thể điều chỉnh vocal style và pacing bằng các tag tự nhiên mà không cần thay đổi toàn bộ prompt.

Cải tiến chính

Chất lượng tự nhiên hơn: Đạt ELO score 1,211 trên bảng xếp hạng Artificial Analysis TTS
70+ ngôn ngữ: Mở rộng đáng kể so với 24 ngôn ngữ của phiên bản 2.5
Kiểm soát tốt hơn: Tuân thủ chặt chẽ hơn các chỉ dẫn phong cách
SynthID watermark: Tất cả audio đều được đánh dấu để nhận diện AI

6. Ứng Dụng Thực Tế Trong Công Việc

6.1 Tạo Podcast tự động

Bạn có thể tạo podcast chuyên nghiệp với nhiều giọng nói mà không cần thuê diễn viên lồng tiếng. Quy trình: viết kịch bản (hoặc dùng AI tạo kịch bản) → chuyển thành audio bằng Gemini TTS → chỉnh sửa và xuất bản.

Kịch bản mẫu:

# Bước 1: Tạo kịch bản bằng Gemini
transcript = client.models.generate_content(
    model="gemini-2.5-flash",
    contents="""Viết kịch bản podcast 2 phút về chủ đề "AI trong giáo dục
    Việt Nam". Hai host tên Đức và Mai. Phong cách trò chuyện tự nhiên,
    có ví dụ cụ thể."""
).text

# Bước 2: Chuyển thành audio
response = client.models.generate_content(
    model="gemini-2.5-flash-preview-tts",
    contents=transcript,
    config=types.GenerateContentConfig(
        response_modalities=["AUDIO"],
        speech_config=types.SpeechConfig(
            multi_speaker_voice_config=types.MultiSpeakerVoiceConfig(
                speaker_voice_configs=[
                    types.SpeakerVoiceConfig(
                        speaker='Đức',
                        voice_config=types.VoiceConfig(
                            prebuilt_voice_config=types.PrebuiltVoiceConfig(
                                voice_name='Charon',
                            )
                        )
                    ),
                    types.SpeakerVoiceConfig(
                        speaker='Mai',
                        voice_config=types.VoiceConfig(
                            prebuilt_voice_config=types.PrebuiltVoiceConfig(
                                voice_name='Leda',
                            )
                        )
                    ),
                ]
            )
        )
    )
)

6.2 E-Learning & Bài giảng online

Tạo bài giảng audio chuyên nghiệp cho khóa học online. Giọng đọc rõ ràng, có điểm nhấn, và tự điều chỉnh tốc độ theo nội dung.

Ví dụ prompt:

### DIRECTOR'S NOTES
Style: Giảng viên đại học thân thiện, giải thích dễ hiểu.
Chậm lại và nhấn mạnh khi đến các khái niệm quan trọng.
Dùng giọng khích lệ khi học viên cần động lực.

Pace: Tốc độ vừa phải, nghỉ ngắn sau mỗi ý chính để
người nghe kịp ghi chú.

### TRANSCRIPT
Chào các bạn sinh viên! Hôm nay chúng ta sẽ tìm hiểu về
Machine Learning. Đừng lo, nghe tên thì phức tạp nhưng
thực ra khái niệm cốt lõi rất đơn giản...

6.3 Audiobook & Sách nói

Chuyển đổi sách, truyện ngắn, bài viết blog thành định dạng audio. Đặc biệt hữu ích cho nội dung tiếng Việt khi thị trường sách nói còn hạn chế.

6.4 Video Marketing & Quảng cáo

Tạo voiceover cho video quảng cáo, video sản phẩm, video hướng dẫn sử dụng — tiết kiệm chi phí thuê người đọc.

6.5 Chatbot & Trợ lý ảo có giọng nói

Tích hợp giọng nói tự nhiên vào chatbot dịch vụ khách hàng, trợ lý ảo nội bộ công ty.

6.6 Nội dung đa ngôn ngữ (Localization)

Một bài hướng dẫn sản phẩm viết một lần, chuyển thành audio ở nhiều ngôn ngữ khác nhau cho thị trường quốc tế.

7. Ứng Dụng Trong Cuộc Sống Hằng Ngày

7.1 Đọc tin tức / email khi bận tay

Chuyển bài báo, email dài thành audio để nghe khi lái xe, nấu ăn, hoặc tập thể dục.

7.2 Học ngoại ngữ

Tạo các bài luyện nghe với giọng đọc tự nhiên ở nhiều accent khác nhau. Ví dụ: nghe tiếng Anh giọng Mỹ, Anh, Úc chỉ bằng cách thay đổi prompt.

7.3 Sáng tạo nội dung cá nhân

Tạo lời bình cho video du lịch, vlog cá nhân, hoặc video TikTok/YouTube Shorts.

7.4 Hỗ trợ người khiếm thị

Chuyển đổi tài liệu, sách, hướng dẫn thành audio chất lượng cao để hỗ trợ tiếp cận thông tin.

7.5 Kể chuyện cho trẻ em

Tạo truyện kể đêm với giọng đọc sinh động, có cảm xúc — có thể tạo nhiều nhân vật với giọng khác nhau.

8. Chi Phí Sử Dụng

Kênh	Chi phí
Google AI Studio	Miễn phí (giai đoạn preview)
Gemini API (free tier)	Miễn phí với giới hạn rate limit
Gemini API (paid)	Khoảng $0.04 / 1,000 ký tự
Vertex AI	Pay-as-you-go, giá enterprise

So sánh: ElevenLabs tính phí theo subscription (từ $5/tháng), OpenAI TTS khoảng $15-30 / 1 triệu ký tự. Gemini Flash TTS thuộc nhóm có giá cạnh tranh nhất.

9. Giới Hạn Cần Biết

Không hỗ trợ streaming: TTS model không trả về audio theo stream, phải đợi toàn bộ. Nếu cần streaming, sử dụng Live API.
Giới hạn context window: 32,000 tokens cho mỗi request TTS.
Chất lượng giảm với audio dài: Khuyến nghị chia transcript thành các đoạn ngắn (dưới vài phút) để đảm bảo chất lượng.
Chỉ nhận text, chỉ xuất audio: Không thể truyền hình ảnh hay audio vào, và output chỉ là audio.
Lỗi 500 ngẫu nhiên: Model đôi khi trả về text tokens thay vì audio tokens.
Giọng có thể không khớp 100%: Khi prompt mô tả phong cách quá khác biệt với voice đã chọn (ví dụ: giọng nam trầm đọc kiểu bé gái).

10. Mẹo & Best Practices

Giữ prompt nhất quán: Nội dung transcript nên phù hợp với phong cách đạo diễn. Đừng yêu cầu giọng buồn để đọc nội dung vui nhộn.

Chọn voice phù hợp: Dùng voice có đặc điểm gần với phong cách bạn muốn. Ví dụ: Enceladus (breathy) cho nội dung thì thầm, Puck (upbeat) cho nội dung năng lượng cao.

Chia nhỏ nội dung dài: Với bài dài hơn 2-3 phút, chia thành nhiều đoạn và gọi API riêng cho mỗi đoạn, rồi ghép audio lại.

Dùng Gemini tạo kịch bản: Để Gemini viết transcript trước, rồi truyền vào TTS model — tạo pipeline tự động hoàn toàn.

Đừng overspecify: Quá nhiều hướng dẫn chi tiết có thể hạn chế sự tự nhiên. Hãy để model có không gian sáng tạo như một diễn viên giỏi.

11. Tài Nguyên Hữu Ích

Tài liệu chính thức: ai.google.dev/gemini-api/docs/speech-generation
Google AI Studio: aistudio.google.com
Cookbook TTS: Get Started TTS Notebook
Voice Library: aistudio.google.com/apps/bundled/voice-library
API Key: aistudio.google.com/apikey

Bài hướng dẫn được tổng hợp từ tài liệu chính thức của Google và các nguồn kỹ thuật đáng tin cậy, cập nhật tháng 4/2026.