Cập nhật: Tháng 4/2026 — Bao gồm cả Gemini 2.5 Flash TTS và Gemini 3.1 Flash TTS Preview mới nhất.
1. Gemini Flash TTS Là Gì?
Gemini Flash TTS là dòng mô hình Text-to-Speech (chuyển văn bản thành giọng nói) của Google DeepMind, được tích hợp trực tiếp vào Gemini API. Không giống các hệ thống TTS truyền thống chỉ đơn thuần "đọc chữ", Gemini Flash TTS hoạt động như một diễn viên lồng tiếng ảo — bạn có thể đạo diễn cách nó nói: giọng điệu, cảm xúc, tốc độ, accent, và cả phong cách biểu diễn.
Các phiên bản hiện có
| Model | Model ID | Đặc điểm |
|---|---|---|
| Gemini 2.5 Flash TTS | gemini-2.5-flash-preview-tts |
Tối ưu độ trễ thấp, tốc độ nhanh |
| Gemini 2.5 Pro TTS | gemini-2.5-pro-tts |
Tối ưu chất lượng cao nhất |
| Gemini 3.1 Flash TTS (mới nhất) | gemini-3.1-flash-tts-preview |
Hỗ trợ audio tags, 70+ ngôn ngữ, tự nhiên nhất |
Điểm nổi bật
- 30 giọng nói tích hợp sẵn với các phong cách khác nhau (ấm áp, chuyên nghiệp, sôi nổi, nhẹ nhàng...)
- Hỗ trợ đa ngôn ngữ: 70+ ngôn ngữ bao gồm tiếng Việt
- Multi-speaker: Tạo hội thoại với nhiều giọng nói khác nhau (lên đến 2 speaker)
- Kiểm soát phong cách bằng ngôn ngữ tự nhiên: Mô tả cách bạn muốn AI nói thay vì cài đặt kỹ thuật phức tạp
- SynthID watermark: Tất cả audio được đánh dấu bằng SynthID để nhận diện nội dung AI
2. Bắt Đầu Nhanh — Không Cần Code
Cách 1: Dùng Google AI Studio (Miễn phí, nhanh nhất)
Đây là cách đơn giản nhất để thử nghiệm, không cần viết code.
Bước 1: Truy cập aistudio.google.com
Bước 2: Đăng nhập bằng tài khoản Google
Bước 3: Chọn mục "Generate Speech" hoặc "Audio Playground"
Bước 4: Chọn model gemini-3.1-flash-tts-preview (hoặc gemini-2.5-flash-preview-tts)
Bước 5: Chọn giọng nói (voice) từ danh sách 30 giọng
Bước 6: Nhập văn bản cần chuyển đổi → Nhấn Generate
Bước 7: Nghe thử và tải file audio về
Cách 2: Dùng Voice Library Applet
Truy cập Voice Library để thử nghiệm trực tiếp tất cả 30 giọng nói với các phong cách khác nhau.
3. Hướng Dẫn Sử Dụng API (Dành Cho Lập Trình Viên)
3.1 Cài đặt môi trường
Yêu cầu: Python 3.9+ và API key từ Google AI Studio.
# Cài đặt SDK
pip install google-genai
# Lấy API key tại: https://aistudio.google.com/apikey
# Đặt biến môi trường
export GEMINI_API_KEY="your-api-key-here"
3.2 Tạo audio đơn giản (Single Speaker)
from google import genai
from google.genai import types
import wave
# Hàm lưu file WAV
def save_wave(filename, pcm, channels=1, rate=24000, sample_width=2):
with wave.open(filename, "wb") as wf:
wf.setnchannels(channels)
wf.setsampwidth(sample_width)
wf.setframerate(rate)
wf.writeframes(pcm)
# Khởi tạo client
client = genai.Client(api_key="YOUR_API_KEY")
# Tạo audio
response = client.models.generate_content(
model="gemini-2.5-flash-preview-tts",
contents="Xin chào! Hôm nay là một ngày tuyệt vời để học về AI.",
config=types.GenerateContentConfig(
response_modalities=["AUDIO"],
speech_config=types.SpeechConfig(
voice_config=types.VoiceConfig(
prebuilt_voice_config=types.PrebuiltVoiceConfig(
voice_name='Kore', # Chọn giọng nói
)
)
),
)
)
# Lưu file
audio_data = response.candidates[0].content.parts[0].inline_data.data
save_wave("xin_chao.wav", audio_data)
print("Đã lưu file xin_chao.wav thành công!")
3.3 Tạo hội thoại nhiều giọng (Multi-Speaker)
from google import genai
from google.genai import types
import wave
def save_wave(filename, pcm, channels=1, rate=24000, sample_width=2):
with wave.open(filename, "wb") as wf:
wf.setnchannels(channels)
wf.setsampwidth(sample_width)
wf.setframerate(rate)
wf.writeframes(pcm)
client = genai.Client(api_key="YOUR_API_KEY")
# Kịch bản hội thoại
prompt = """TTS the following conversation between Minh and Lan:
Minh: Chào Lan! Hôm nay bạn có khỏe không?
Lan: Chào Minh! Mình khỏe lắm, cảm ơn bạn. Bạn đã nghe tin về AI mới chưa?
Minh: Chưa, kể mình nghe đi!
Lan: Google vừa ra mắt Gemini Flash TTS, chuyển văn bản thành giọng nói cực kỳ tự nhiên!
"""
response = client.models.generate_content(
model="gemini-2.5-flash-preview-tts",
contents=prompt,
config=types.GenerateContentConfig(
response_modalities=["AUDIO"],
speech_config=types.SpeechConfig(
multi_speaker_voice_config=types.MultiSpeakerVoiceConfig(
speaker_voice_configs=[
types.SpeakerVoiceConfig(
speaker='Minh',
voice_config=types.VoiceConfig(
prebuilt_voice_config=types.PrebuiltVoiceConfig(
voice_name='Kore', # Giọng nam
)
)
),
types.SpeakerVoiceConfig(
speaker='Lan',
voice_config=types.VoiceConfig(
prebuilt_voice_config=types.PrebuiltVoiceConfig(
voice_name='Aoede', # Giọng nữ
)
)
),
]
)
)
)
)
audio_data = response.candidates[0].content.parts[0].inline_data.data
save_wave("hoi_thoai.wav", audio_data)
print("Đã lưu file hoi_thoai.wav!")
3.4 Kiểm soát phong cách bằng Prompt (Tính năng mạnh nhất)
Đây là điểm khác biệt lớn nhất của Gemini TTS. Bạn viết "kịch bản đạo diễn" bằng ngôn ngữ tự nhiên:
# Prompt đầy đủ với Audio Profile + Scene + Director's Notes
prompt = """
# AUDIO PROFILE: Hà Linh
## "Bản tin công nghệ sáng"
## THE SCENE: Phòng thu podcast
Hà Linh ngồi trong phòng thu nhỏ xinh, ánh đèn ấm, trên bàn là ly cà phê
nóng. Không khí thoải mái, gần gũi như đang trò chuyện với bạn bè.
### DIRECTOR'S NOTES
Style:
* Giọng ấm áp, thân thiện như đang kể chuyện cho bạn nghe
* Thỉnh thoảng có chút hài hước nhẹ nhàng
* Nhấn mạnh các con số và tên sản phẩm
Pace: Tốc độ vừa phải, không quá nhanh. Chậm lại khi nói đến
thông tin quan trọng.
Accent: Vietnamese, giọng Hà Nội tự nhiên
### TRANSCRIPT
Xin chào các bạn! Chào mừng các bạn đến với bản tin công nghệ sáng thứ Ba.
Hôm nay mình có một tin cực kỳ thú vị. Google vừa ra mắt Gemini 3.1 Flash TTS,
và nói thật với các bạn, mình đã thử rồi và... wow, giọng nói tự nhiên
đến mức mình phải kiểm tra lại hai lần xem có phải người thật không!
"""
response = client.models.generate_content(
model="gemini-2.5-flash-preview-tts",
contents=prompt,
config=types.GenerateContentConfig(
response_modalities=["AUDIO"],
speech_config=types.SpeechConfig(
voice_config=types.VoiceConfig(
prebuilt_voice_config=types.PrebuiltVoiceConfig(
voice_name='Leda',
)
)
),
)
)
4. Bảng Tra Cứu 30 Giọng Nói
| Giọng | Phong cách | Phù hợp cho |
|---|---|---|
| Zephyr | Tươi sáng | Quảng cáo, giới thiệu sản phẩm |
| Puck | Sôi nổi, vui vẻ | Podcast giải trí, video vui |
| Charon | Thông tin, rõ ràng | Tin tức, bài giảng |
| Kore | Chắc chắn, vững chãi | Thuyết trình, báo cáo |
| Fenrir | Phấn khích, hào hứng | Giới thiệu game, thể thao |
| Leda | Trẻ trung | Content cho giới trẻ |
| Orus | Nghiêm túc | Tài liệu chuyên nghiệp |
| Aoede | Nhẹ nhàng, thoáng | Thiền, wellness, ASMR |
| Callirrhoe | Thoải mái | Audiobook, kể chuyện |
| Autonoe | Tươi sáng | Marketing, social media |
| Enceladus | Thở nhẹ, thì thầm | Nội dung nhẹ nhàng |
| Iapetus | Trong trẻo | E-learning, hướng dẫn |
| Umbriel | Dễ chịu | Chatbot, trợ lý ảo |
| Algieba | Mượt mà | Quảng cáo cao cấp |
| Despina | Mượt mà | Nội dung thương hiệu |
| Erinome | Rõ ràng | Tài liệu kỹ thuật |
| Algenib | Trầm, khàn | Nội dung nam tính |
| Rasalgethi | Thông thái | Documentary, phim tài liệu |
| Laomedeia | Vui vẻ | Video cho trẻ em |
| Achernar | Nhẹ nhàng, mềm | Nội dung cảm xúc |
| Alnilam | Vững chãi | Thuyết trình doanh nghiệp |
| Schedar | Đều đặn | Đọc sách, tường thuật |
| Gacrux | Trưởng thành | Nội dung chuyên gia |
| Pulcherrima | Mạnh mẽ | Trailer, quảng cáo mạnh |
| Achird | Thân thiện | Chatbot dịch vụ khách hàng |
| Zubenelgenubi | Thoải mái | Podcast casual |
| Vindemiatrix | Dịu dàng | Nội dung chăm sóc |
| Sadachbia | Sống động | Event, MC ảo |
| Sadaltager | Uyên bác | Giáo dục chuyên sâu |
| Sulafat | Ấm áp | Nội dung gia đình |
5. Gemini 3.1 Flash TTS — Tính Năng Mới Nhất (Tháng 4/2026)
Phiên bản mới nhất mang đến bước nhảy vọt so với 2.5:
Audio Tags — Điều khiển chi tiết trong văn bản
Gemini 3.1 cho phép chèn các audio tags trực tiếp vào transcript để kiểm soát phong cách đọc từng đoạn, từng câu. Bạn có thể điều chỉnh vocal style và pacing bằng các tag tự nhiên mà không cần thay đổi toàn bộ prompt.
Cải tiến chính
- Chất lượng tự nhiên hơn: Đạt ELO score 1,211 trên bảng xếp hạng Artificial Analysis TTS
- 70+ ngôn ngữ: Mở rộng đáng kể so với 24 ngôn ngữ của phiên bản 2.5
- Kiểm soát tốt hơn: Tuân thủ chặt chẽ hơn các chỉ dẫn phong cách
- SynthID watermark: Tất cả audio đều được đánh dấu để nhận diện AI
6. Ứng Dụng Thực Tế Trong Công Việc
6.1 Tạo Podcast tự động
Bạn có thể tạo podcast chuyên nghiệp với nhiều giọng nói mà không cần thuê diễn viên lồng tiếng. Quy trình: viết kịch bản (hoặc dùng AI tạo kịch bản) → chuyển thành audio bằng Gemini TTS → chỉnh sửa và xuất bản.
Kịch bản mẫu:
# Bước 1: Tạo kịch bản bằng Gemini
transcript = client.models.generate_content(
model="gemini-2.5-flash",
contents="""Viết kịch bản podcast 2 phút về chủ đề "AI trong giáo dục
Việt Nam". Hai host tên Đức và Mai. Phong cách trò chuyện tự nhiên,
có ví dụ cụ thể."""
).text
# Bước 2: Chuyển thành audio
response = client.models.generate_content(
model="gemini-2.5-flash-preview-tts",
contents=transcript,
config=types.GenerateContentConfig(
response_modalities=["AUDIO"],
speech_config=types.SpeechConfig(
multi_speaker_voice_config=types.MultiSpeakerVoiceConfig(
speaker_voice_configs=[
types.SpeakerVoiceConfig(
speaker='Đức',
voice_config=types.VoiceConfig(
prebuilt_voice_config=types.PrebuiltVoiceConfig(
voice_name='Charon',
)
)
),
types.SpeakerVoiceConfig(
speaker='Mai',
voice_config=types.VoiceConfig(
prebuilt_voice_config=types.PrebuiltVoiceConfig(
voice_name='Leda',
)
)
),
]
)
)
)
)
6.2 E-Learning & Bài giảng online
Tạo bài giảng audio chuyên nghiệp cho khóa học online. Giọng đọc rõ ràng, có điểm nhấn, và tự điều chỉnh tốc độ theo nội dung.
Ví dụ prompt:
### DIRECTOR'S NOTES
Style: Giảng viên đại học thân thiện, giải thích dễ hiểu.
Chậm lại và nhấn mạnh khi đến các khái niệm quan trọng.
Dùng giọng khích lệ khi học viên cần động lực.
Pace: Tốc độ vừa phải, nghỉ ngắn sau mỗi ý chính để
người nghe kịp ghi chú.
### TRANSCRIPT
Chào các bạn sinh viên! Hôm nay chúng ta sẽ tìm hiểu về
Machine Learning. Đừng lo, nghe tên thì phức tạp nhưng
thực ra khái niệm cốt lõi rất đơn giản...
6.3 Audiobook & Sách nói
Chuyển đổi sách, truyện ngắn, bài viết blog thành định dạng audio. Đặc biệt hữu ích cho nội dung tiếng Việt khi thị trường sách nói còn hạn chế.
6.4 Video Marketing & Quảng cáo
Tạo voiceover cho video quảng cáo, video sản phẩm, video hướng dẫn sử dụng — tiết kiệm chi phí thuê người đọc.
6.5 Chatbot & Trợ lý ảo có giọng nói
Tích hợp giọng nói tự nhiên vào chatbot dịch vụ khách hàng, trợ lý ảo nội bộ công ty.
6.6 Nội dung đa ngôn ngữ (Localization)
Một bài hướng dẫn sản phẩm viết một lần, chuyển thành audio ở nhiều ngôn ngữ khác nhau cho thị trường quốc tế.
7. Ứng Dụng Trong Cuộc Sống Hằng Ngày
7.1 Đọc tin tức / email khi bận tay
Chuyển bài báo, email dài thành audio để nghe khi lái xe, nấu ăn, hoặc tập thể dục.
7.2 Học ngoại ngữ
Tạo các bài luyện nghe với giọng đọc tự nhiên ở nhiều accent khác nhau. Ví dụ: nghe tiếng Anh giọng Mỹ, Anh, Úc chỉ bằng cách thay đổi prompt.
7.3 Sáng tạo nội dung cá nhân
Tạo lời bình cho video du lịch, vlog cá nhân, hoặc video TikTok/YouTube Shorts.
7.4 Hỗ trợ người khiếm thị
Chuyển đổi tài liệu, sách, hướng dẫn thành audio chất lượng cao để hỗ trợ tiếp cận thông tin.
7.5 Kể chuyện cho trẻ em
Tạo truyện kể đêm với giọng đọc sinh động, có cảm xúc — có thể tạo nhiều nhân vật với giọng khác nhau.
8. Chi Phí Sử Dụng
| Kênh | Chi phí |
|---|---|
| Google AI Studio | Miễn phí (giai đoạn preview) |
| Gemini API (free tier) | Miễn phí với giới hạn rate limit |
| Gemini API (paid) | Khoảng $0.04 / 1,000 ký tự |
| Vertex AI | Pay-as-you-go, giá enterprise |
So sánh: ElevenLabs tính phí theo subscription (từ $5/tháng), OpenAI TTS khoảng $15-30 / 1 triệu ký tự. Gemini Flash TTS thuộc nhóm có giá cạnh tranh nhất.
9. Giới Hạn Cần Biết
- Không hỗ trợ streaming: TTS model không trả về audio theo stream, phải đợi toàn bộ. Nếu cần streaming, sử dụng Live API.
- Giới hạn context window: 32,000 tokens cho mỗi request TTS.
- Chất lượng giảm với audio dài: Khuyến nghị chia transcript thành các đoạn ngắn (dưới vài phút) để đảm bảo chất lượng.
- Chỉ nhận text, chỉ xuất audio: Không thể truyền hình ảnh hay audio vào, và output chỉ là audio.
- Lỗi 500 ngẫu nhiên: Model đôi khi trả về text tokens thay vì audio tokens.
- Giọng có thể không khớp 100%: Khi prompt mô tả phong cách quá khác biệt với voice đã chọn (ví dụ: giọng nam trầm đọc kiểu bé gái).
10. Mẹo & Best Practices
Giữ prompt nhất quán: Nội dung transcript nên phù hợp với phong cách đạo diễn. Đừng yêu cầu giọng buồn để đọc nội dung vui nhộn.
Chọn voice phù hợp: Dùng voice có đặc điểm gần với phong cách bạn muốn. Ví dụ: Enceladus (breathy) cho nội dung thì thầm, Puck (upbeat) cho nội dung năng lượng cao.
Chia nhỏ nội dung dài: Với bài dài hơn 2-3 phút, chia thành nhiều đoạn và gọi API riêng cho mỗi đoạn, rồi ghép audio lại.
Dùng Gemini tạo kịch bản: Để Gemini viết transcript trước, rồi truyền vào TTS model — tạo pipeline tự động hoàn toàn.
Đừng overspecify: Quá nhiều hướng dẫn chi tiết có thể hạn chế sự tự nhiên. Hãy để model có không gian sáng tạo như một diễn viên giỏi.
11. Tài Nguyên Hữu Ích
- Tài liệu chính thức: ai.google.dev/gemini-api/docs/speech-generation
- Google AI Studio: aistudio.google.com
- Cookbook TTS: Get Started TTS Notebook
- Voice Library: aistudio.google.com/apps/bundled/voice-library
- API Key: aistudio.google.com/apikey
Bài hướng dẫn được tổng hợp từ tài liệu chính thức của Google và các nguồn kỹ thuật đáng tin cậy, cập nhật tháng 4/2026.

Bình Luận (0)
Đăng nhập để bình luận.