Gemini AI - Multimodal Generator (Text + Image)

This is a multimodal AI web app built with Streamlit and powered by Google's Gemini 2.5 API, enabling both text-to-text and image-to-text generation.

🔧 Features

🤖 Text Generation: Enter a prompt and receive intelligent, contextual completions using Gemini's LLM capabilities.
🖼️ Image Captioning: Upload an image and get a detailed description using Gemini's vision model.
⚡ Updated UI: Clean and intuitive layout with improved user experience.
🌐 Built with Streamlit for responsive, real-time interaction.
🧠 Powered by Google Generative AI (LLM + Vision multimodal models).

🛠️ Tech Stack

Python
Streamlit
Google Generative AI (Gemini 2.5)
PIL (Python Imaging Library)

📌 Use Cases

Natural Language Text Completion
Image Understanding / Caption Generation
AI Demos and Multimodal Prototypes

Name		Name	Last commit message	Last commit date
Latest commit History 17 Commits
.gitignore		.gitignore
README.md		README.md
app.py		app.py
gemini_api.py		gemini_api.py
preview.png		preview.png
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Gemini AI - Multimodal Generator (Text + Image)

🔧 Features

🛠️ Tech Stack

📌 Use Cases

📸 Preview

About

Uh oh!

Releases

Packages

Uh oh!

Languages

Eswarpuli/genai-multimodal-app

Folders and files

Latest commit

History

Repository files navigation

Gemini AI - Multimodal Generator (Text + Image)

🔧 Features

🛠️ Tech Stack

📌 Use Cases

📸 Preview

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Languages

Packages