Commits · tom-doerr/logo

feat: scan layers + gradient checkpointing (#161)

07a6f9a
unverified

boris commited on Apr 9, 2022

Merge branch 'main' of https://github.com/borisdayma/dalle-mini into main

bcd360f

boris commited on Apr 8, 2022

feat: better multi-node support (#158)

728a3c3
unverified

boris commited on Apr 8, 2022

feat(text): support emojis (#154)

7ef7bd9
unverified

boris commited on Apr 6, 2022

fix: smelu

7f2f8ed

boris commited on Apr 6, 2022

fix: sinkformer

2c583b3

boris commited on Apr 6, 2022

fix: support smelu

a2dcee4

boris commited on Apr 5, 2022

feat: allow relative position (#156)

769d20a
unverified

boris commited on Apr 5, 2022

feat: sinkhorn in lse mode (#155)

00d4661
unverified

boris commited on Apr 4, 2022

fix: sinkformer gradient

eed4896

boris commited on Mar 31, 2022

feat(model): allow bias (#152)

361a994
unverified

boris commited on Mar 30, 2022

feat: add sinkformer + custom final ln + pre-ln (#151)

f139b0b
unverified

boris commited on Mar 29, 2022

feat: placeholders for more config

69bcbeb

boris commited on Mar 28, 2022

feat: force final ln in encoder

32f4ba5

boris commited on Mar 28, 2022

feat: allow more configurations

5bd4c20

boris commited on Mar 28, 2022

fix: DeepNet doesn't scale weights of embedding/output layers (#150)

503d6b4
unverified

Shuming Ma Shuming Ma commited on Mar 28, 2022

feat: remove unecessary LN

02824a7

boris commited on Mar 27, 2022

feat: add cogview

472c4cc

boris commited on Mar 25, 2022

fix(textnormalizer): consider utf8 on windows (#148)

3b8d8cb
unverified

illtellyoulater commited on Mar 25, 2022

feat: implement transformer variants (#144)

542378c
unverified

boris commited on Mar 24, 2022

feat(data): super conditioning (#141)

7939874
unverified

boris commited on Mar 17, 2022

feat: support pod (#139)

803ccbf
unverified

boris commited on Mar 14, 2022

feat: handle gradient checkpointing

5173ec7

boris commited on Feb 22, 2022

feat: load from bucket

1c4e839

boris commited on Feb 22, 2022

feat: reduce artifact space + offset step

34cf91c

boris commited on Feb 22, 2022

feat: restore weights on CPU

5f954fc

boris commited on Feb 21, 2022

fix: position embedding for generate method

ebac379

boris commited on Feb 10, 2022

fix: typo

68cc185

boris commited on Feb 7, 2022

fix: load from checkpoint

44b7c3e

boris commited on Feb 4, 2022

feat(modeling): simplify abstract_init

fa72aa7

boris commited on Feb 2, 2022

feat(train) - handle multiple nodes (#130)

0952927
unverified

boris commited on Feb 1, 2022

feat: handle model parallel

1bb3269

boris commited on Feb 1, 2022

fix: style

386f839

boris commited on Jan 30, 2022

style(tokenizer): remove unused variables

605df32

boris commited on Jan 27, 2022

feat: use fast tokenizer

767d78a

boris commited on Jan 27, 2022

feat(train): improve pjit speed

f254058

boris commited on Jan 25, 2022

fix(train): consider correct batch size

b7c7458

boris commited on Jan 25, 2022

feat(train): distributed_shampoo with pjit

cc34d07

boris commited on Jan 24, 2022

style: unsused import

7a176b9

boris commited on Jan 23, 2022

feat(model): clean way to load on cpu

12f323d

boris commited on Jan 22, 2022

feat(train): no batch dimension with pjit

df1fe19

boris commited on Jan 22, 2022

feat(train): progress on pjit

49597a2

boris commited on Jan 22, 2022

feat: use_artifact if run existing

a5ed112

boris commited on Jan 20, 2022

Load from wandb artifact (#121)

f69b21b
unverified

boris commited on Jan 20, 2022

Style (isort).

f9d51f7

Pedro Cuenca commited on Jan 20, 2022

Tokenizer, config, model can be loaded from wandb.

7e48337

Pedro Cuenca commited on Jan 18, 2022

feat(data): support accumulation in non-streaming

88c8e06

boris commited on Jan 17, 2022

feat: custom gradient accumulation

2d07559

boris commited on Jan 17, 2022

Change import order again.

2b2be9b

Pedro Cuenca commited on Jan 16, 2022

Fix import order to make isort happy.

64d99b2

Pedro Cuenca commited on Jan 16, 2022

Commit History

feat: scan layers + gradient checkpointing (#161) 07a6f9a unverified

Merge branch 'main' of https://github.com/borisdayma/dalle-mini into main bcd360f

feat: better multi-node support (#158) 728a3c3 unverified

feat(text): support emojis (#154) 7ef7bd9 unverified

fix: smelu 7f2f8ed

fix: sinkformer 2c583b3

fix: support smelu a2dcee4

feat: allow relative position (#156) 769d20a unverified

feat: sinkhorn in lse mode (#155) 00d4661 unverified

fix: sinkformer gradient eed4896

feat(model): allow bias (#152) 361a994 unverified

feat: add sinkformer + custom final ln + pre-ln (#151) f139b0b unverified

feat: placeholders for more config 69bcbeb

feat: force final ln in encoder 32f4ba5

feat: allow more configurations 5bd4c20

fix: DeepNet doesn't scale weights of embedding/output layers (#150) 503d6b4 unverified

feat: remove unecessary LN 02824a7

feat: add cogview 472c4cc

fix(textnormalizer): consider utf8 on windows (#148) 3b8d8cb unverified

feat: implement transformer variants (#144) 542378c unverified

feat(data): super conditioning (#141) 7939874 unverified

feat: support pod (#139) 803ccbf unverified

feat: handle gradient checkpointing 5173ec7

feat: load from bucket 1c4e839

feat: reduce artifact space + offset step 34cf91c

feat: restore weights on CPU 5f954fc

fix: position embedding for generate method ebac379

fix: typo 68cc185

fix: load from checkpoint 44b7c3e

feat(modeling): simplify abstract_init fa72aa7

feat(train) - handle multiple nodes (#130) 0952927 unverified

feat: handle model parallel 1bb3269

fix: style 386f839

style(tokenizer): remove unused variables 605df32

feat: use fast tokenizer 767d78a

feat(train): improve pjit speed f254058

fix(train): consider correct batch size b7c7458

feat(train): distributed_shampoo with pjit cc34d07

style: unsused import 7a176b9

feat(model): clean way to load on cpu 12f323d

feat(train): no batch dimension with pjit df1fe19

feat(train): progress on pjit 49597a2

feat: use_artifact if run existing a5ed112

Load from wandb artifact (#121) f69b21b unverified

Style (isort). f9d51f7

Tokenizer, config, model can be loaded from wandb. 7e48337

feat(data): support accumulation in non-streaming 88c8e06

feat: custom gradient accumulation 2d07559

Change import order again. 2b2be9b

Fix import order to make isort happy. 64d99b2

feat: scan layers + gradient checkpointing (#161)

07a6f9a
unverified

Merge branch 'main' of https://github.com/borisdayma/dalle-mini into main

bcd360f

feat: better multi-node support (#158)

728a3c3
unverified

feat(text): support emojis (#154)

7ef7bd9
unverified

fix: smelu

7f2f8ed

fix: sinkformer

2c583b3

fix: support smelu

a2dcee4

feat: allow relative position (#156)

769d20a
unverified

feat: sinkhorn in lse mode (#155)

00d4661
unverified

fix: sinkformer gradient

eed4896

feat(model): allow bias (#152)

361a994
unverified

feat: add sinkformer + custom final ln + pre-ln (#151)

f139b0b
unverified

feat: placeholders for more config

69bcbeb

feat: force final ln in encoder

32f4ba5

feat: allow more configurations

5bd4c20

fix: DeepNet doesn't scale weights of embedding/output layers (#150)

503d6b4
unverified

feat: remove unecessary LN

02824a7

feat: add cogview

472c4cc

fix(textnormalizer): consider utf8 on windows (#148)

3b8d8cb
unverified

feat: implement transformer variants (#144)

542378c
unverified

feat(data): super conditioning (#141)

7939874
unverified

feat: support pod (#139)

803ccbf
unverified

feat: handle gradient checkpointing

5173ec7

feat: load from bucket

1c4e839

feat: reduce artifact space + offset step

34cf91c

feat: restore weights on CPU

5f954fc

fix: position embedding for generate method

ebac379

fix: typo

68cc185

fix: load from checkpoint

44b7c3e

feat(modeling): simplify abstract_init

fa72aa7

feat(train) - handle multiple nodes (#130)

0952927
unverified

feat: handle model parallel

1bb3269

fix: style

386f839

style(tokenizer): remove unused variables

605df32

feat: use fast tokenizer

767d78a

feat(train): improve pjit speed

f254058

fix(train): consider correct batch size

b7c7458

feat(train): distributed_shampoo with pjit

cc34d07

style: unsused import

7a176b9

feat(model): clean way to load on cpu

12f323d

feat(train): no batch dimension with pjit

df1fe19

feat(train): progress on pjit

49597a2

feat: use_artifact if run existing

a5ed112

Load from wandb artifact (#121)

f69b21b
unverified

Style (isort).

f9d51f7

Tokenizer, config, model can be loaded from wandb.

7e48337

feat(data): support accumulation in non-streaming

88c8e06

feat: custom gradient accumulation

2d07559

Change import order again.

2b2be9b

Fix import order to make isort happy.

64d99b2