1. Веб-сервер
- Что делает: Веб-сервер обеспечивает маршрутизацию API (аутентификация пользователей, расписание/создание записи встречи, загрузка файлов, получение транскриптов и отчётов) и может служить API-шлюзом для взаимодействия с микросервисами.
- Технологии: Python + FastAPI
2. Сервис записи встреч
- Что делает:
- Подключается к Zoom/Meet как "бот-участник"
- Пишет аудио/видео в реальном времени
- Сохраняет записи
- В случае локальных аудио/видео файлов, модуль обработки просто принимает загруженный файл
3. Хранилище данных
- База данных: MongoDB
- Хранит информацию о пользователях, встречах, транскриптах и сгенерированных отчётах.
4. Очередь задач
- Что делает: При поступлении новой встречи или загруженного файла основное приложение публикует задачи на обработку (расшифровка, анализ) в очередь
- Технологии: RabbitMQ
5. Сервис расшифровки аудио
- Что делает: Сервис, отвечающий за преобразование аудио в текст. Получив задачу из очереди или поток аудиоданных, он выполняет распознавание речи с помощью моделей машинного обучения.
- Технологии:
- OpenAI Whisper или Google Speech-to-Text
6. Сервис отчетов
- Что делает: Этот компонент принимает на вход полный текст транскрипта встречи и формирует итоговый отчёт. С помощью большой языковой модели (LLM) или специализированных ML-моделей он извлекает ключевые моменты, решения, задачи и формулирует сжатое резюме встречи.
- Технологии:
- внешняя LLM (GPT, Deepseek, Gemini)
7. Уведомления
- Что делает: После генерации отчёта запускается рассылка уведомлений: отправка email с кратким резюме и ссылкой на полный отчёт.
Где могут быть тормоза и как фиксим