AWS introduces Nova 2 Omni, their A2A model

Nova 2 Omni is AWS's industry-first multimodal model processing text, image, video, and audio inputs with unified text/image outputs, enabling agents to reason across diverse media like keynote summaries with visuals.

Nova 2 Omni stands as the multimodal pinnacle of the Nova 2 lineup, ingesting text, images, videos, and audio while generating text or image responses from a single model architecture.

It unifies reasoning over mixed modalities for tasks such as analyzing presentations with slides, extracting insights from multimedia content, or powering agents that interpret visual and auditory context alongside text.

By handling diverse inputs natively, Omni simplifies development of cross-media AI applications, reduces model orchestration complexity, and supports richer enterprise use cases like content summarization or interactive visual analysis.

AWS