Publications

Aleksandr Shestakov, Nail Bashirov, Andrei Semenov, Alexander Gasnikov, Martin Takáč, Aleksandr Beznosikov, Dmitry Kamzolov (2025). Adaptive Regularized Newton Method with Inexact Hessian.

PDF Cite DOI arXiv

Apertus Team (2025). Apertus: Democratizing Open and Compliant LLMs for Global Language Environments.

Cite Code arXiv Technical Report Hugging Face Swiss AI

Andrei Semenov, Matteo Pagliardini, Martin Jaggi (2025). Benchmarking Optimizers for Large Language Model Pretraining.

PDF Cite Code DOI arXiv EurIPS 2025

Andrei Semenov, Martin Jaggi, Nikita Doikov (2025). Gradient-Normalized Smoothness for Optimization with Approximate Hessians.

PDF Cite Code DOI arXiv

Nikita Kornilov, Philip Zmushko, Andrei Semenov, Alexander Gasnikov, Aleksandr Beznosikov (2025). Sign Operator for Coping with Heavy-Tailed Noise: High Probability Convergence Bounds with Extensions to Distributed Optimization and Comparison Oracle.

PDF Cite DOI arXiv

Andrei Semenov, Philip Zmushko, Alexander Pichugin, Aleksandr Beznosikov (2024). Just a Simple Transformation is Enough for Data Protection in Vertical Federated Learning.

PDF Cite Code DOI arXiv

Nikita Yudin, Roland Hildebrand, Sergey Bakhurin, Alexander Degtyarev, Anna Lisachenko, Ilya Kuruzov, Andrei Semenov, Mohammad Alkousa (2024). Mixed Newton Method for Optimization in Complex Spaces.

PDF Cite DOI arXiv

Savelii Chezhegov, Yaroslav Klyukin, Andrei Semenov, Aleksandr Beznosikov, Alexander Gasnikov, Samuel Horváth, Martin Takáč, Eduard Gorbunov (2024). Clipping Improves Adam-Norm and AdaGrad-Norm when the Noise Is Heavy-Tailed.

PDF Cite Code DOI arXiv

Andrei Semenov, Vladimir Ivanov, Aleksandr Beznosikov, Alexander Gasnikov (2024). Sparse Concept Bottleneck Models: Gumbel Tricks in Contrastive Learning.

PDF Cite Code DOI arXiv

Aleksandr Beznosikov, Darina Dvinskikh, Andrei Semenov, Alexander Gasnikov (2023). Bregman Proximal Method for Efficient Communications under Similarity.

PDF Cite DOI arXiv