Nhập từ khóa để bắt đầu tìm kiếm

Hướng Dẫn Toàn Diện: Gemini Flash TTS — Chuyển Văn Bản Thành Giọng Nói AI Chuyên Nghiệp

Hướng Dẫn Toàn Diện: Gemini Flash TTS — Chuyển Văn Bản Thành Giọng Nói AI Chuyên Nghiệp

Cập nhật: Tháng 4/2026 — Bao gồm cả Gemini 2.5 Flash TTS và Gemini 3.1 Flash TTS Preview mới nhất.


1. Gemini Flash TTS Là Gì?

Gemini Flash TTS là dòng mô hình Text-to-Speech (chuyển văn bản thành giọng nói) của Google DeepMind, được tích hợp trực tiếp vào Gemini API. Không giống các hệ thống TTS truyền thống chỉ đơn thuần "đọc chữ", Gemini Flash TTS hoạt động như một diễn viên lồng tiếng ảo — bạn có thể đạo diễn cách nó nói: giọng điệu, cảm xúc, tốc độ, accent, và cả phong cách biểu diễn.

Các phiên bản hiện có

Model Model ID Đặc điểm
Gemini 2.5 Flash TTS gemini-2.5-flash-preview-tts Tối ưu độ trễ thấp, tốc độ nhanh
Gemini 2.5 Pro TTS gemini-2.5-pro-tts Tối ưu chất lượng cao nhất
Gemini 3.1 Flash TTS (mới nhất) gemini-3.1-flash-tts-preview Hỗ trợ audio tags, 70+ ngôn ngữ, tự nhiên nhất

Điểm nổi bật

  • 30 giọng nói tích hợp sẵn với các phong cách khác nhau (ấm áp, chuyên nghiệp, sôi nổi, nhẹ nhàng...)
  • Hỗ trợ đa ngôn ngữ: 70+ ngôn ngữ bao gồm tiếng Việt
  • Multi-speaker: Tạo hội thoại với nhiều giọng nói khác nhau (lên đến 2 speaker)
  • Kiểm soát phong cách bằng ngôn ngữ tự nhiên: Mô tả cách bạn muốn AI nói thay vì cài đặt kỹ thuật phức tạp
  • SynthID watermark: Tất cả audio được đánh dấu bằng SynthID để nhận diện nội dung AI

2. Bắt Đầu Nhanh — Không Cần Code

Cách 1: Dùng Google AI Studio (Miễn phí, nhanh nhất)

Đây là cách đơn giản nhất để thử nghiệm, không cần viết code.

Bước 1: Truy cập aistudio.google.com

Bước 2: Đăng nhập bằng tài khoản Google

Bước 3: Chọn mục "Generate Speech" hoặc "Audio Playground"

Bước 4: Chọn model gemini-3.1-flash-tts-preview (hoặc gemini-2.5-flash-preview-tts)

Bước 5: Chọn giọng nói (voice) từ danh sách 30 giọng

Bước 6: Nhập văn bản cần chuyển đổi → Nhấn Generate

Bước 7: Nghe thử và tải file audio về

Cách 2: Dùng Voice Library Applet

Truy cập Voice Library để thử nghiệm trực tiếp tất cả 30 giọng nói với các phong cách khác nhau.


3. Hướng Dẫn Sử Dụng API (Dành Cho Lập Trình Viên)

3.1 Cài đặt môi trường

Yêu cầu: Python 3.9+ và API key từ Google AI Studio.

# Cài đặt SDK
pip install google-genai

# Lấy API key tại: https://aistudio.google.com/apikey
# Đặt biến môi trường
export GEMINI_API_KEY="your-api-key-here"

3.2 Tạo audio đơn giản (Single Speaker)

from google import genai
from google.genai import types
import wave

# Hàm lưu file WAV
def save_wave(filename, pcm, channels=1, rate=24000, sample_width=2):
    with wave.open(filename, "wb") as wf:
        wf.setnchannels(channels)
        wf.setsampwidth(sample_width)
        wf.setframerate(rate)
        wf.writeframes(pcm)

# Khởi tạo client
client = genai.Client(api_key="YOUR_API_KEY")

# Tạo audio
response = client.models.generate_content(
    model="gemini-2.5-flash-preview-tts",
    contents="Xin chào! Hôm nay là một ngày tuyệt vời để học về AI.",
    config=types.GenerateContentConfig(
        response_modalities=["AUDIO"],
        speech_config=types.SpeechConfig(
            voice_config=types.VoiceConfig(
                prebuilt_voice_config=types.PrebuiltVoiceConfig(
                    voice_name='Kore',  # Chọn giọng nói
                )
            )
        ),
    )
)

# Lưu file
audio_data = response.candidates[0].content.parts[0].inline_data.data
save_wave("xin_chao.wav", audio_data)
print("Đã lưu file xin_chao.wav thành công!")

3.3 Tạo hội thoại nhiều giọng (Multi-Speaker)

from google import genai
from google.genai import types
import wave

def save_wave(filename, pcm, channels=1, rate=24000, sample_width=2):
    with wave.open(filename, "wb") as wf:
        wf.setnchannels(channels)
        wf.setsampwidth(sample_width)
        wf.setframerate(rate)
        wf.writeframes(pcm)

client = genai.Client(api_key="YOUR_API_KEY")

# Kịch bản hội thoại
prompt = """TTS the following conversation between Minh and Lan:
Minh: Chào Lan! Hôm nay bạn có khỏe không?
Lan: Chào Minh! Mình khỏe lắm, cảm ơn bạn. Bạn đã nghe tin về AI mới chưa?
Minh: Chưa, kể mình nghe đi!
Lan: Google vừa ra mắt Gemini Flash TTS, chuyển văn bản thành giọng nói cực kỳ tự nhiên!
"""

response = client.models.generate_content(
    model="gemini-2.5-flash-preview-tts",
    contents=prompt,
    config=types.GenerateContentConfig(
        response_modalities=["AUDIO"],
        speech_config=types.SpeechConfig(
            multi_speaker_voice_config=types.MultiSpeakerVoiceConfig(
                speaker_voice_configs=[
                    types.SpeakerVoiceConfig(
                        speaker='Minh',
                        voice_config=types.VoiceConfig(
                            prebuilt_voice_config=types.PrebuiltVoiceConfig(
                                voice_name='Kore',  # Giọng nam
                            )
                        )
                    ),
                    types.SpeakerVoiceConfig(
                        speaker='Lan',
                        voice_config=types.VoiceConfig(
                            prebuilt_voice_config=types.PrebuiltVoiceConfig(
                                voice_name='Aoede',  # Giọng nữ
                            )
                        )
                    ),
                ]
            )
        )
    )
)

audio_data = response.candidates[0].content.parts[0].inline_data.data
save_wave("hoi_thoai.wav", audio_data)
print("Đã lưu file hoi_thoai.wav!")

3.4 Kiểm soát phong cách bằng Prompt (Tính năng mạnh nhất)

Đây là điểm khác biệt lớn nhất của Gemini TTS. Bạn viết "kịch bản đạo diễn" bằng ngôn ngữ tự nhiên:

# Prompt đầy đủ với Audio Profile + Scene + Director's Notes
prompt = """
# AUDIO PROFILE: Hà Linh
## "Bản tin công nghệ sáng"

## THE SCENE: Phòng thu podcast
Hà Linh ngồi trong phòng thu nhỏ xinh, ánh đèn ấm, trên bàn là ly cà phê
nóng. Không khí thoải mái, gần gũi như đang trò chuyện với bạn bè.

### DIRECTOR'S NOTES
Style:
* Giọng ấm áp, thân thiện như đang kể chuyện cho bạn nghe
* Thỉnh thoảng có chút hài hước nhẹ nhàng
* Nhấn mạnh các con số và tên sản phẩm

Pace: Tốc độ vừa phải, không quá nhanh. Chậm lại khi nói đến
thông tin quan trọng.

Accent: Vietnamese, giọng Hà Nội tự nhiên

### TRANSCRIPT
Xin chào các bạn! Chào mừng các bạn đến với bản tin công nghệ sáng thứ Ba.
Hôm nay mình có một tin cực kỳ thú vị. Google vừa ra mắt Gemini 3.1 Flash TTS,
và nói thật với các bạn, mình đã thử rồi và... wow, giọng nói tự nhiên
đến mức mình phải kiểm tra lại hai lần xem có phải người thật không!
"""

response = client.models.generate_content(
    model="gemini-2.5-flash-preview-tts",
    contents=prompt,
    config=types.GenerateContentConfig(
        response_modalities=["AUDIO"],
        speech_config=types.SpeechConfig(
            voice_config=types.VoiceConfig(
                prebuilt_voice_config=types.PrebuiltVoiceConfig(
                    voice_name='Leda',
                )
            )
        ),
    )
)

4. Bảng Tra Cứu 30 Giọng Nói

Giọng Phong cách Phù hợp cho
Zephyr Tươi sáng Quảng cáo, giới thiệu sản phẩm
Puck Sôi nổi, vui vẻ Podcast giải trí, video vui
Charon Thông tin, rõ ràng Tin tức, bài giảng
Kore Chắc chắn, vững chãi Thuyết trình, báo cáo
Fenrir Phấn khích, hào hứng Giới thiệu game, thể thao
Leda Trẻ trung Content cho giới trẻ
Orus Nghiêm túc Tài liệu chuyên nghiệp
Aoede Nhẹ nhàng, thoáng Thiền, wellness, ASMR
Callirrhoe Thoải mái Audiobook, kể chuyện
Autonoe Tươi sáng Marketing, social media
Enceladus Thở nhẹ, thì thầm Nội dung nhẹ nhàng
Iapetus Trong trẻo E-learning, hướng dẫn
Umbriel Dễ chịu Chatbot, trợ lý ảo
Algieba Mượt mà Quảng cáo cao cấp
Despina Mượt mà Nội dung thương hiệu
Erinome Rõ ràng Tài liệu kỹ thuật
Algenib Trầm, khàn Nội dung nam tính
Rasalgethi Thông thái Documentary, phim tài liệu
Laomedeia Vui vẻ Video cho trẻ em
Achernar Nhẹ nhàng, mềm Nội dung cảm xúc
Alnilam Vững chãi Thuyết trình doanh nghiệp
Schedar Đều đặn Đọc sách, tường thuật
Gacrux Trưởng thành Nội dung chuyên gia
Pulcherrima Mạnh mẽ Trailer, quảng cáo mạnh
Achird Thân thiện Chatbot dịch vụ khách hàng
Zubenelgenubi Thoải mái Podcast casual
Vindemiatrix Dịu dàng Nội dung chăm sóc
Sadachbia Sống động Event, MC ảo
Sadaltager Uyên bác Giáo dục chuyên sâu
Sulafat Ấm áp Nội dung gia đình

5. Gemini 3.1 Flash TTS — Tính Năng Mới Nhất (Tháng 4/2026)

Phiên bản mới nhất mang đến bước nhảy vọt so với 2.5:

Audio Tags — Điều khiển chi tiết trong văn bản

Gemini 3.1 cho phép chèn các audio tags trực tiếp vào transcript để kiểm soát phong cách đọc từng đoạn, từng câu. Bạn có thể điều chỉnh vocal style và pacing bằng các tag tự nhiên mà không cần thay đổi toàn bộ prompt.

Cải tiến chính

  • Chất lượng tự nhiên hơn: Đạt ELO score 1,211 trên bảng xếp hạng Artificial Analysis TTS
  • 70+ ngôn ngữ: Mở rộng đáng kể so với 24 ngôn ngữ của phiên bản 2.5
  • Kiểm soát tốt hơn: Tuân thủ chặt chẽ hơn các chỉ dẫn phong cách
  • SynthID watermark: Tất cả audio đều được đánh dấu để nhận diện AI

6. Ứng Dụng Thực Tế Trong Công Việc

6.1 Tạo Podcast tự động

Bạn có thể tạo podcast chuyên nghiệp với nhiều giọng nói mà không cần thuê diễn viên lồng tiếng. Quy trình: viết kịch bản (hoặc dùng AI tạo kịch bản) → chuyển thành audio bằng Gemini TTS → chỉnh sửa và xuất bản.

Kịch bản mẫu:

# Bước 1: Tạo kịch bản bằng Gemini
transcript = client.models.generate_content(
    model="gemini-2.5-flash",
    contents="""Viết kịch bản podcast 2 phút về chủ đề "AI trong giáo dục
    Việt Nam". Hai host tên Đức và Mai. Phong cách trò chuyện tự nhiên,
    có ví dụ cụ thể."""
).text

# Bước 2: Chuyển thành audio
response = client.models.generate_content(
    model="gemini-2.5-flash-preview-tts",
    contents=transcript,
    config=types.GenerateContentConfig(
        response_modalities=["AUDIO"],
        speech_config=types.SpeechConfig(
            multi_speaker_voice_config=types.MultiSpeakerVoiceConfig(
                speaker_voice_configs=[
                    types.SpeakerVoiceConfig(
                        speaker='Đức',
                        voice_config=types.VoiceConfig(
                            prebuilt_voice_config=types.PrebuiltVoiceConfig(
                                voice_name='Charon',
                            )
                        )
                    ),
                    types.SpeakerVoiceConfig(
                        speaker='Mai',
                        voice_config=types.VoiceConfig(
                            prebuilt_voice_config=types.PrebuiltVoiceConfig(
                                voice_name='Leda',
                            )
                        )
                    ),
                ]
            )
        )
    )
)

6.2 E-Learning & Bài giảng online

Tạo bài giảng audio chuyên nghiệp cho khóa học online. Giọng đọc rõ ràng, có điểm nhấn, và tự điều chỉnh tốc độ theo nội dung.

Ví dụ prompt:

### DIRECTOR'S NOTES
Style: Giảng viên đại học thân thiện, giải thích dễ hiểu.
Chậm lại và nhấn mạnh khi đến các khái niệm quan trọng.
Dùng giọng khích lệ khi học viên cần động lực.

Pace: Tốc độ vừa phải, nghỉ ngắn sau mỗi ý chính để
người nghe kịp ghi chú.

### TRANSCRIPT
Chào các bạn sinh viên! Hôm nay chúng ta sẽ tìm hiểu về
Machine Learning. Đừng lo, nghe tên thì phức tạp nhưng
thực ra khái niệm cốt lõi rất đơn giản...

6.3 Audiobook & Sách nói

Chuyển đổi sách, truyện ngắn, bài viết blog thành định dạng audio. Đặc biệt hữu ích cho nội dung tiếng Việt khi thị trường sách nói còn hạn chế.

6.4 Video Marketing & Quảng cáo

Tạo voiceover cho video quảng cáo, video sản phẩm, video hướng dẫn sử dụng — tiết kiệm chi phí thuê người đọc.

6.5 Chatbot & Trợ lý ảo có giọng nói

Tích hợp giọng nói tự nhiên vào chatbot dịch vụ khách hàng, trợ lý ảo nội bộ công ty.

6.6 Nội dung đa ngôn ngữ (Localization)

Một bài hướng dẫn sản phẩm viết một lần, chuyển thành audio ở nhiều ngôn ngữ khác nhau cho thị trường quốc tế.


7. Ứng Dụng Trong Cuộc Sống Hằng Ngày

7.1 Đọc tin tức / email khi bận tay

Chuyển bài báo, email dài thành audio để nghe khi lái xe, nấu ăn, hoặc tập thể dục.

7.2 Học ngoại ngữ

Tạo các bài luyện nghe với giọng đọc tự nhiên ở nhiều accent khác nhau. Ví dụ: nghe tiếng Anh giọng Mỹ, Anh, Úc chỉ bằng cách thay đổi prompt.

7.3 Sáng tạo nội dung cá nhân

Tạo lời bình cho video du lịch, vlog cá nhân, hoặc video TikTok/YouTube Shorts.

7.4 Hỗ trợ người khiếm thị

Chuyển đổi tài liệu, sách, hướng dẫn thành audio chất lượng cao để hỗ trợ tiếp cận thông tin.

7.5 Kể chuyện cho trẻ em

Tạo truyện kể đêm với giọng đọc sinh động, có cảm xúc — có thể tạo nhiều nhân vật với giọng khác nhau.


8. Chi Phí Sử Dụng

Kênh Chi phí
Google AI Studio Miễn phí (giai đoạn preview)
Gemini API (free tier) Miễn phí với giới hạn rate limit
Gemini API (paid) Khoảng $0.04 / 1,000 ký tự
Vertex AI Pay-as-you-go, giá enterprise

So sánh: ElevenLabs tính phí theo subscription (từ $5/tháng), OpenAI TTS khoảng $15-30 / 1 triệu ký tự. Gemini Flash TTS thuộc nhóm có giá cạnh tranh nhất.


9. Giới Hạn Cần Biết

  • Không hỗ trợ streaming: TTS model không trả về audio theo stream, phải đợi toàn bộ. Nếu cần streaming, sử dụng Live API.
  • Giới hạn context window: 32,000 tokens cho mỗi request TTS.
  • Chất lượng giảm với audio dài: Khuyến nghị chia transcript thành các đoạn ngắn (dưới vài phút) để đảm bảo chất lượng.
  • Chỉ nhận text, chỉ xuất audio: Không thể truyền hình ảnh hay audio vào, và output chỉ là audio.
  • Lỗi 500 ngẫu nhiên: Model đôi khi trả về text tokens thay vì audio tokens.
  • Giọng có thể không khớp 100%: Khi prompt mô tả phong cách quá khác biệt với voice đã chọn (ví dụ: giọng nam trầm đọc kiểu bé gái).

10. Mẹo & Best Practices

Giữ prompt nhất quán: Nội dung transcript nên phù hợp với phong cách đạo diễn. Đừng yêu cầu giọng buồn để đọc nội dung vui nhộn.

Chọn voice phù hợp: Dùng voice có đặc điểm gần với phong cách bạn muốn. Ví dụ: Enceladus (breathy) cho nội dung thì thầm, Puck (upbeat) cho nội dung năng lượng cao.

Chia nhỏ nội dung dài: Với bài dài hơn 2-3 phút, chia thành nhiều đoạn và gọi API riêng cho mỗi đoạn, rồi ghép audio lại.

Dùng Gemini tạo kịch bản: Để Gemini viết transcript trước, rồi truyền vào TTS model — tạo pipeline tự động hoàn toàn.

Đừng overspecify: Quá nhiều hướng dẫn chi tiết có thể hạn chế sự tự nhiên. Hãy để model có không gian sáng tạo như một diễn viên giỏi.


11. Tài Nguyên Hữu Ích


Bài hướng dẫn được tổng hợp từ tài liệu chính thức của Google và các nguồn kỹ thuật đáng tin cậy, cập nhật tháng 4/2026.

Hướng Dẫn Liên Quan

Bình Luận (0)

Đăng nhập để bình luận.