Multimodal QA systems (text + image + video)

QA pipelines that ingest text, images, and video for unified retrieval, reasoning, and answer generation.

Muhammad Zeeshan

Technologies Used

Python

LLMs

Vision

RAG

FastAPI

Cross-modal ingestion and embedding

Unified retrieval across modalities

Grounded answers with source references

Combined vision encoders, transcript extraction, and vector retrieval so users query mixed media corpora in one interface.

Enabled support and analytics teams to query documentation, screenshots, and walkthrough video in a single flow.