Miłość nie powinna mieć warunków. Ale dla mojej siostry miała. Bez cienia wyrzutów sumienia oddała swoją adoptowaną córeczkę, gdy urodziła biologicznego syna. Kiedy próbowałam zrozumieć jej okrucieństwo, tylko wzruszyła ramionami: Przecież nigdy nie była naprawdę moja. Ale karma już pukała do jej drzwi.
Są chwile, które łamią cię na kawałki, rozrywają piersi i zostawiają bez tchu. Dla mnie były to cztery słowa, które moja siostra wypowiedziała o swojej czteroletniej adoptowanej córeczce: *Oddałam ją z powrotem*.
Od miesięcy nie widziałyśmy się z siostrą. Mieszkała kilka województw dalej, a z powodu ciąży daliśmy jej spokój. Ale gdy urodziła chłopczyka, cała rodzina postanowiła ją odwiedzić. Chcieliśmy świętować.
Załadowałam samochód starannie zapakowanymi prezentami i pluszowym misiem dla Lilki, mojej czteroletniej chrześnicy.
Gdy podjechaliśmy pod podmiejski dom Ewy, zauważyłam, iż ogród wygląda inaczej. Zniknęła plastikowa zjeżdżalnia, którą Lilka uwielbiała. Nie było też jej małego ogródka ze słone# Transfer Learning Based Multi-objective Genetic Programming for Automated Reinforcement Learning
This repository is the official implementation of the paper [Transfer Learning Based Multi-objective Genetic Programming for Automated Reinforcement Learning](https://www.tiberiocaetano.com/publication/tmogp4arl/tmogp4arl.pdf), published in IEEE Transactions on Evolutionary Computation (2023).
## Requirements
All the code was implemented in Python. To install the required packages run:
„`setup
pip install -r requirements.txt
„`
## Environments
We evaluated the proposed method in two environments:
1. **Deep Sea Treasure (DST)**: a sparse-reward environment where an agent has to navigate towards a treasure in a 2D map. The original environment was proposed by [Vamplew et al. (2011)](https://link.springer.com/chapter/10.1007/978-3-642-19893-9_17). For our experiments we extended the environment with a time component, resulting in a multi-objective task:
– maximize the treasure value,
– minimize the time taken to reach the treasure.
2. **Platforms**: an environment where a character has to navigate from a starting point to a goal point on a 2D map collecting coins while avoiding enemies. The environment is taken from [Gaier et al. (2018)](https://arxiv.org/abs/1805.11158). The objectives for this environment are:
– maximize the number of collected coins,
– minimize the time to reach the destination,
– minimize the damage taken.
For more details about the environments please refer to the original paper.
## Code
The repository is structured as follows:
– `code/`: contains all the code
– `environments/`: contains the code for the environments
– `experiments/`: contains the code to run the experiments
– `gp/`: contains the code for the genetic programming
– `irl/`: contains the code for the inverse reinforcement learning
– `rl/`: contains the code for the reinforcement learning
– `utils/`: contains the utilities
– `experiments-results/`: contains the results of the experiments
## Training
To train the multi-objective GP on the DST environment run the following command:
„`train
python code/experiments/tmogp_dst.py
„`
To train the multi-objective GP on the Platforms environment run the following command:
„`train
python code/experiments/tmogp_platforms.py
„`
All parameters can be modified from the configuration files inside the `config/` folder.
## Results
Our model achieves the following performance on the two environments:
### DST
| Method | Transfer Learning (TL) | Hypervolume (HV) |
|——————————|————————|——————|
| Random policy | | 0.416 ą 0.050 |
| TMOGP (proposed) | | 0.784 ą 0.015 |
| TMOGP + TL (proposed) | | 0.801 ą 0.015 |
| TMOGP + TL + IRL (proposed) | | **0.860 ą 0.010**|
### Platforms
| Method | Transfer Learning (TL) | Hypervolume (HV) |
|——————————|————————|——————|
| Random policy | | 0.650 ą 0.050 |
| TMOGP (proposed) | | 0.725 ą 0.015 |
| TMOGP + TL (proposed) | | 0.735 ą 0.015 |
| TMOGP + TL + IRL (proposed) | | **0.785 ą 0.010**|
## Citation
If you use this code in your research, please cite our paper:
„`
@article{caetano2023transfer,
title={Transfer Learning Based Multi-objective Genetic Programming for Automated Reinforcement Learning},
author={Caetano, Tibério and Zhao, Liang and Li, Xiaodong and Caetano, Melody and Kirley, Michael},
journal={IEEE Transactions on Evolutionary Computation},
year={2023},
publisher={IEEE}
}
„`