Ecosyste.ms: Repos

An open API service providing repository metadata for many open source software ecosystems.

GitHub topics: safe-rlhf

Repositories

PKU-Alignment/safe-rlhf

Safe RLHF: Constrained Value Alignment via Safe Reinforcement Learning from Human Feedback

Language: Python - Size: 4.01 MB - Last synced: about 2 months ago - Pushed: about 2 months ago - Stars: 1,137 - Forks: 92

EzgiKorkmaz/adversarial-reinforcement-learning

Reading list for adversarial perspective and robustness in deep reinforcement learning.

Size: 15.6 KB - Last synced: about 2 months ago - Pushed: 9 months ago - Stars: 74 - Forks: 3

PKU-Alignment/beavertails

BeaverTails is a collection of datasets designed to facilitate research on safety alignment in large language models (LLMs).

Language: Makefile - Size: 2.33 MB - Last synced: 7 months ago - Pushed: 7 months ago - Stars: 42 - Forks: 1

Related Keywords

ai-safety 3 safe-rlhf 3 safety 2 safe-reinforcement-learning 2 rlhf 2 llms 2 llm 2 llama 2 gpt 2 datasets 2 beaver 2 explainable-machine-learning 1 explainable-rl 1 machine-learning-safety 1 meta-reinforcement-learning 1 multiagent-reinforcement-learning 1 reinforcement-learning-generalization 1 reinforcement-learning-safety 1 responsible-ai 1 robust-adversarial-reinforcement-learning 1 large-language-model 1 robust-machine-learning 1 language-model 1 robust-reinforcement-learning 1 human-feedback 1 human-feedback-data 1 deep-reinforcement-learning 1 ai-alignment 1 adversarial-reinforcement-learning 1 adversarial-policies 1 adversarial-machine-learning 1 adversarial-attacks 1 vicuna 1 transformers 1 transformer 1 safe-reinforcement-learning-from-human-feedback 1 reinforcement-learning-from-human-feedback 1 reinforcement-learning 1 large-language-models 1 deepspeed 1 alpaca 1