Парфеньев Владимир Михайлович
В докладе рассматриваются два алгоритма — Q-learning и Actor-Critic — применительно к ряду течений различной степени сложности. Показано, что оба подхода обеспечивают успешную навигацию: в регулярных течениях среднее время достижения цели отличается от оптимального на 3-10%, тогда как в нестационарных турбулентных потоках это различие возрастает до 35-75%. В заключение продемонстрировано, что агенты, обученные на турбулентных полях скорости с отфильтрованными мелкомасштабными флуктуациями, успешно переносят найденные стратегии на полное поле скорости. Такая устойчивость к неполноте информации о течении имеет важное значение для практической навигации в реальных океанических и атмосферных условиях.
Доклад основан на препринте “Optimal navigation in two-dimensional flows: Control theory and reinforcement learning”, arXiv:2512.08766.