Оптимальная навигация в двумерных регулярных и хаотических потоках
Доклад посвящен навигационной задаче Цермело о поиске кратчайшего по времени пути между двумя заданными точками в потоке жидкости. Рассматривается агент (например, плавающий дрон или активная частица), который переносится двумерным полем скорости жидкости и движется относительно потока с постоянной скоростью, управляя только направлением своего движения. Хотя теория оптимального контроля позволяет сформулировать необходимое условие для минимизирующих время движения траекторий, соответствующие решения нередко оказываются неустойчивыми и характеризуются положительными конечновременными показателями Ляпунова. Для построения устойчивых навигационных стратегий в таких условиях мы используем методы машинного обучения с подкреплением.
В докладе рассматриваются два алгоритма — Q-learning и Actor-Critic — применительно к ряду течений различной степени сложности. Показано, что оба подхода обеспечивают успешную навигацию: в регулярных течениях среднее время достижения цели отличается от оптимального на 3-10%, тогда как в нестационарных турбулентных потоках это различие возрастает до 35-75%. В заключение продемонстрировано, что агенты, обученные на турбулентных полях скорости с отфильтрованными мелкомасштабными флуктуациями, успешно переносят найденные стратегии на полное поле скорости. Такая устойчивость к неполноте информации о течении имеет важное значение для практической навигации в реальных океанических и атмосферных условиях.
Доклад основан на препринте “Optimal navigation in two-dimensional flows: Control theory and reinforcement learning”, arXiv:2512.08766.