Foorumit

Apple Siliconin syvä oppimissuorituskyky

G

gl3lan

Alkuperäinen juliste
11. toukokuuta 2020
  • 26. lokakuuta 2021
Jos joku on kiinnostunut, suoritti melko yksinkertaisen MNIST-benchmarkin (ehdotettu tässä: https://github.com/apple/tensorflow_macos/issues/25 ) hiljattain hankitussa M1 Pro MBP:ssä (16-ytiminen GPU, 16 Gt RAM-muistia). Asensin Tensorflow seuraavan oppaan avulla ( https://developer.apple.com/metal/tensorflow-plugin/ ).

Viitteenä tämä vertailuarvo näyttää toimivan noin 24 ms/askel M1 GPU:lla.

M1 Prossa vertailuarvo on 11-12 ms/askel (kaksi kertaa TFLOP:t, kaksi kertaa nopeammin kuin M1-siru).

Sama vertailukohta RTX-2080:lla (fp32 13,5 TFLOPS) antaa 6 ms/askel ja 8 ms/askel, kun ajetaan GeForce GTX Titan X:llä (fp32 6.7 TFLOPs). Samanlaista suorituskykyä voidaan odottaa myös M1 Max GPU:lta (jonka pitäisi toimia kaksi kertaa nopeammin kuin M1 Pro).

Tietenkin tämä benchmark käyttää melko yksinkertaista CNN-mallia, mutta se antaa jo idean. Muista myös, että RTX-sukupolven kortit pystyvät toimimaan nopeammin fp16-tarkkuudella, en ole varma, että se soveltuisi Apple Siliconiin.

Suoritan mielelläni minkä tahansa muun vertailuarvon, jos sitä ehdotetaan (tai autan jotakuta suorittamaan vertailuindeksin M1 Max -sirulla), vaikka olisinkin enemmän PyTorch-tyyppi. ;-)

[edit] Saa minut miettimään, olisiko minun pitänyt valita M1 Max -siru... luultavasti en. Viimeksi muokattu: 27.10.2021
Reaktiot:project_2501, Bil21, chengengaun ja 2 muuta THE

leman

14. lokakuuta 2008


  • 26. lokakuuta 2021
Ovatko ne työpöydän Nvidia-kortit, joihin vertaat sitä? Jos näin on, se ei ole huono pienikokoiselle kannettavalle tietokoneelle.

Mutta kyllä, muistin kaistanleveys ja suuret välimuistit tekevät näistä koneista ihanteellisia datatieteeseen. PyTorch GitHubissa on ollut äskettäin epätavallisen paljon aktiivisuutta, jossa pyydetään alkuperäistä M1-taustaohjelmaa. On hyvä mahdollisuus, että vuosi 2022 on vuosi, jolloin Apple valloittaa ML-yhteisön. JA

sinun tietosi

1. joulukuuta 2010
  • 27. lokakuuta 2021
gl3lan sanoi: Suoritan mielelläni minkä tahansa muun vertailuarvon, jos sitä ehdotetaan Laajenna napsauttamalla...
Miten se oli akun/lämmön suhteen? Ja utelias, kuinka Pro vertaa Maxia akun ja lämmön suhteen. S

lähetetty kouluun

2. marraskuuta 2017
  • 27. lokakuuta 2021
leman sanoi: Ovatko ne työpöydän Nvidia-kortit, joihin vertaat sitä? Jos näin on, se ei ole huono pienikokoiselle kannettavalle tietokoneelle.

Mutta kyllä, muistin kaistanleveys ja suuret välimuistit tekevät näistä koneista ihanteellisia datatieteeseen. PyTorch GitHubissa on ollut äskettäin epätavallisen paljon aktiivisuutta, jossa pyydetään alkuperäistä M1-taustaohjelmaa. On hyvä mahdollisuus, että vuosi 2022 on vuosi, jolloin Apple valloittaa ML-yhteisön. Laajenna napsauttamalla...
64 Gt:n VRAM-muistin hankkiminen 'halvalla' on valtavaa.

Aikaisemmin tarvitsit siihen 13 000 dollarin Nvidia A100 -kortin. G

gl3lan

Alkuperäinen juliste
11. toukokuuta 2020
  • 27. lokakuuta 2021
yurkennis sanoi: Miten se oli akku-/lämmön kannalta? Ja utelias, kuinka Pro vertaa Maxia akun ja lämmön suhteen. Laajenna napsauttamalla...
Rehellisesti sanottuna se ei kestänyt tarpeeksi kauan, jotta voisin arvioida akun suhteen. Lämmön osalta en ole kuullut tuulettimen ääntä kertaakaan sen jälkeen, kun minulla on kone, ja tietokone oli jossain vaiheessa hieman lämmin (mutta suuruusluokkaa viileämpi kuin vuoden 2015 13 tai 2020 13).

Jos olet kiinnostunut laajemmista vertailuarvoista, voit käydä katsomassa tässä . Pohjimmiltaan M1 Max on noin 8 kertaa hitaampi kuin RTX 3090 (3090:n benchmark ajetaan fp16-tarkkuudella maksiminopeuden saavuttamiseksi), mutta kuluttaa 8 kertaa vähemmän virtaa.

Suoritin ResNet50-benchmarkin M1 Prolla (16 Gt RAM) ja saavutin noin 65 img/sek (puolet M1 Max -suorituskyvystä, kuten odotettiin), RAM-paine oli joskus oranssia vertailun aikana.

Suoritin saman vertailuarvon myös RTX 2080 Ti:llä (256 img/s fp32-tarkkuudella, 620 img/s fp16-tarkkuudella) ja vuoden 2015 Geforce GTX TITAN X:llä (128 img/s fp32-tarkkuudella, 170 img/sek). sekuntia fp16 tarkkuudella).

Kaiken kaikkiaan M1 Max on mielestäni erittäin lupaava GPU, varsinkin kun otetaan huomioon, että se voidaan konfiguroida 64 Gt:lla tai RAM-muistilla. Aika näyttää, ottaako ML-yhteisö käyttöön kyseiset koneet ja onko myös PyTorchin mukauttaminen asiaankuuluvaa.

Riippuen myöhempien Apple Silicon -sirusukupolvien edistymisestä (ja tulevassa Mac Prossa ehdotetuista GPU:ista), syvällinen oppiminen Macissa saattaa olla houkuttelevaa.
Reaktiot:chengengaun, half_a_banana ja yurkennis X

Xiao_Xi

27. lokakuuta 2021
  • 27. lokakuuta 2021
Applen on autettava Pytorch-kehittäjiä Metal-taustajärjestelmän kanssa ja parannettava Tensorflow-haarukkaansa, jotta se otettaisiin vakavasti ML-yhteisössä.
Reaktiot:chengengaun ja JMacHack THE

leman

14. lokakuuta 2008
  • 27. lokakuuta 2021
Nämä ovat rehellisesti sanottuna kauheita tuloksia. M1 Maxin pitäisi olla paljon nopeampi. Applen kanssa se on todella puoli askelta eteenpäin ja sitten hankala tanssi kaikkiin suuntiin... he julkaisevat avoimen lähdekoodin tensor flow -version, joka yhtäkkiä pudottaa sen ja korvaa sen suljetun lähdekoodin laajennuksella, joka on piilotettu heidän verkkosivuillaan ilman dokumentaatiota. , ei muutosta, ei mitään. Tee siitä vain avoin lähdekoodi. Anna yhteisölle mahdollisuus korjata vikoja.

Näyttää myös siltä, ​​​​että tensorflow-laajennus ei käytä AMX-kiihdyttimiä, jotka ovat M1:n nopein matriisilaitteisto. Miksi?

Mitä tulee muistiinpanosi FP16:sta ja FP64:stä: M1 GPU ei tue FP64:ää. FP16 ylennetään FP32:ksi ALU:issa. FP16:n ja FP32:n välillä ei ole suorituskykyeroa (paitsi että FP16 käyttää vähemmän rekisteritiedostoja ja voi parantaa laitteiston käyttöä monimutkaisissa varjostimissa, mutta epäilen, että tämä koskee ML:ää).
Reaktiot:chengengaun ja CarbonCycles C

Carbon Cycles

15. toukokuuta 2014
  • 27. lokakuuta 2021
Olisin utelias, jos olisit arvioinut tässä mainittuja Apples CoreML -kirjastoja:
developer.apple.com

Muunna PyTorch-mallit Core ML:ksi - Tech Talks - Videos - Apple Developer

Tuo PyTorch-mallisi Core ML:ään ja löydä kuinka voit hyödyntää laitteessa olevaa koneoppimista sovelluksissasi. PyTorch kone... developer.apple.com
Olen suuri PyTorchin fani, ja tämä on suurin turhautumiseni DL-ekosysteemiin tällä hetkellä... siitä on tulossa hyvin suljetun lähdekoodin/omistettu ekosysteemi. Sen lisäksi näillä järjestelmillä on niin paljon potentiaalia, joka menee hukkaan tuen puutteen vuoksi. X

Xiao_Xi

27. lokakuuta 2021
  • 27. lokakuuta 2021
@CarbonCycles Vaikuttaa siltä, ​​että Core ML/Neural Engine on hyvä johtopäätösten tekemiseen, mutta ei harjoitteluun.

Tietääkö kukaan mitä laitteistoa ja syväoppimiskirjastoa Apple käyttää malliensa kouluttamiseen?
Reaktiot:karbokaatio G

gl3lan

Alkuperäinen juliste
11. toukokuuta 2020
  • 27. lokakuuta 2021
Luultavasti Nvidia-laitteisto ja Tensorflow- tai Pytorch-kirjastot... onko vaihtoehtoa? C

Carbon Cycles

15. toukokuuta 2014
  • 27. lokakuuta 2021
Xiao_Xi sanoi: @CarbonCycles Näyttää siltä, ​​​​että Core ML/Neural Engine on hyvä päättelyyn, mutta ei harjoitteluun.

Tietääkö kukaan mitä laitteistoa ja syväoppimiskirjastoa Apple käyttää malliensa kouluttamiseen? Laajenna napsauttamalla...
Kyllä, toimii erinomaisesti oheislaitteiden IOT-laitteissa ja joissakin yhdistetyssä oppimisessa.

Luulisin Applen käyttäneen NVIDIA- ja AMD-grafiikkasuorittimien yhdistelmää harjoitteluun.
Reaktiot:Stakashi X

Xiao_Xi

27. lokakuuta 2021
  • 28. lokakuuta 2021
Sanoisin Pytorch Linuxissa Nvidia GPU:illa. Pytorch näyttää olevan suositumpi tutkijoiden keskuudessa uusien algoritmien kehittämisessä, joten olisi järkevää, että Apple käyttäisi Pytorchia enemmän kuin Tensorflowa.

Soveltuvatko nämä uudet kannettavat tietokoneet vahvistusoppimiseen? Olen lukenut, että vahvistavat oppimisalgoritmit riippuvat enemmän CPU:sta kuin GPU:sta. Onko se totta? Jokin vertailukohta? J

JMacHack

16. huhtikuuta 2017
  • 28. lokakuuta 2021
leman sanoi: Nämä ovat kauheita tuloksia suoraan sanottuna. M1 Maxin pitäisi olla paljon nopeampi. Applen kanssa se on todella puoli askelta eteenpäin ja sitten hankala tanssi kaikkiin suuntiin... he julkaisevat avoimen lähdekoodin tensor flow -version, joka yhtäkkiä pudottaa sen ja korvaa sen suljetun lähdekoodin laajennuksella, joka on piilotettu heidän verkkosivuillaan ilman dokumentaatiota. , ei muutosta, ei mitään. Tee siitä vain avoin lähdekoodi. Anna yhteisölle mahdollisuus korjata vikoja. Laajenna napsauttamalla...
Luultavasti oire kilpailevien joukkueiden päittämisestä. Olen varma, että Applelle työskentelee monia avoimen lähdekoodin kannattajia, ja monet haluavat pitää kaiken, minkä voivat. J

jerryk

Osallistuja
3. marraskuuta 2011
SF Bay Area
  • 28. lokakuuta 2021
gl3lan sanoi: Jos joku on kiinnostunut, suoritti melko yksinkertaisen MNIST-benchmarkin (ehdotettu tässä: https://github.com/apple/tensorflow_macos/issues/25 ) hiljattain hankitussa M1 Pro MBP:ssä (16-ytiminen GPU, 16 Gt RAM-muistia). Asensin Tensorflow seuraavan oppaan avulla ( https://developer.apple.com/metal/tensorflow-plugin/ ).

Viitteenä tämä vertailuarvo näyttää toimivan noin 24 ms/askel M1 GPU:lla.

M1 Prossa vertailuarvo on 11-12 ms/askel (kaksi kertaa TFLOP:t, kaksi kertaa nopeammin kuin M1-siru).

Sama vertailukohta RTX-2080:lla (fp32 13,5 TFLOPS) antaa 6 ms/askel ja 8 ms/askel, kun ajetaan GeForce GTX Titan X:llä (fp32 6.7 TFLOPs). Samanlaista suorituskykyä voidaan odottaa myös M1 Max GPU:lta (jonka pitäisi toimia kaksi kertaa nopeammin kuin M1 Pro).

Tietenkin tämä benchmark käyttää melko yksinkertaista CNN-mallia, mutta se antaa jo idean. Muista myös, että RTX-sukupolven kortit pystyvät toimimaan nopeammin fp16-tarkkuudella, en ole varma, että se soveltuisi Apple Siliconiin.

Suoritan mielelläni minkä tahansa muun vertailuarvon, jos sitä ehdotetaan (tai autan jotakuta suorittamaan vertailuindeksin M1 Max -sirulla), vaikka olisinkin enemmän PyTorch-tyyppi. ;-)

[edit] Saa minut miettimään, olisiko minun pitänyt valita M1 Max -siru... luultavasti en. Laajenna napsauttamalla...
Huomaa, että käytät koodia, joka on kirjoitettu käyttämällä TensorFlow V1:tä. Tämä on vanha ja vanhentunut versio TF:stä, joka voi saada tai ei saada päivityksiä. Tensorflow V2 on ollut käytössä vuodesta 2019 lähtien, ja siihen on keskittynyt suurin osa kehitystyöstä.

Jos heillä on uudempi vertailuarvo, suosittelen käyttämään sitä. Viimeksi muokattu: 28.10.2021 G

gl3lan

Alkuperäinen juliste
11. toukokuuta 2020
  • 29. lokakuuta 2021
jerryk sanoi: Huomaa, että käytät koodia, joka on kirjoitettu käyttämällä TensorFlow V1:tä. Tämä on vanha ja vanhentunut versio TF:stä, joka voi saada tai ei saada päivityksiä. Tensorflow V2 on ollut käytössä vuodesta 2019 lähtien, ja siihen on keskittynyt suurin osa kehitystyöstä.

Jos heillä on uudempi vertailuarvo, suosittelen käyttämään sitä. Laajenna napsauttamalla...
gl3lan sanoi: Rehellisesti sanottuna se ei kestänyt tarpeeksi kauan, jotta voisin arvioida akun suhteen. Lämmön osalta en ole kuullut tuulettimen ääntä kertaakaan sen jälkeen, kun minulla on kone, ja tietokone oli jossain vaiheessa hieman lämmin (mutta suuruusluokkaa viileämpi kuin vuoden 2015 13 tai 2020 13).

Jos olet kiinnostunut laajemmista vertailuarvoista, voit käydä katsomassa tässä . Pohjimmiltaan M1 Max on noin 8 kertaa hitaampi kuin RTX 3090 (3090:n benchmark ajetaan fp16-tarkkuudella maksiminopeuden saavuttamiseksi), mutta kuluttaa 8 kertaa vähemmän virtaa.

Suoritin ResNet50-benchmarkin M1 Prolla (16 Gt RAM) ja saavutin noin 65 img/sek (puolet M1 Max -suorituskyvystä, kuten odotettiin), RAM-paine oli joskus oranssia vertailun aikana.

Suoritin saman vertailuarvon myös RTX 2080 Ti:llä (256 img/s fp32-tarkkuudella, 620 img/s fp16-tarkkuudella) ja vuoden 2015 Geforce GTX TITAN X:llä (128 img/s fp32-tarkkuudella, 170 img/sek). sekuntia fp16 tarkkuudella).

Kaiken kaikkiaan M1 Max on mielestäni erittäin lupaava GPU, varsinkin kun otetaan huomioon, että se voidaan konfiguroida 64 Gt:lla tai RAM-muistilla. Aika näyttää, ottaako ML-yhteisö käyttöön kyseiset koneet ja onko myös PyTorchin mukauttaminen asiaankuuluvaa.

Riippuen myöhempien Apple Silicon -sirusukupolvien edistymisestä (ja tulevassa Mac Prossa ehdotetuista GPU:ista), syvällinen oppiminen Macissa saattaa olla houkuttelevaa. Laajenna napsauttamalla...

Tämä toinen vertailuarvo suoritettiin V2-koodilla. X

Xiao_Xi

27. lokakuuta 2021
  • 29. lokakuuta 2021
Näyttää siltä, ​​että Applen Tensorflow-haarukka ei tue kaikkia Tensorflow raw_ops -sovelluksia. Joten meidän on odotettava vielä hieman nähdäksemme näiden uusien GPU:iden todellisen potentiaalin syvän oppimisen suhteen. minä

ingambe

22. helmikuuta 2020
  • 31. lokakuuta 2021
Xiao_Xi sanoi: Applen on autettava Pytorchin kehittäjiä Metal-taustajärjestelmän kanssa ja parannettava Tensorflow-haarukkaansa, jotta se otetaan vakavasti ML-yhteisössä. Laajenna napsauttamalla...
Näin näyttää olevan, lisätietoa tulossa pian: https://github.com/pytorch/pytorch/issues/47702#issuecomment-953074900 minä

ingambe

22. helmikuuta 2020
  • 31. lokakuuta 2021
Minun on sanottava, että yllä oleva vertailuarvo on hieman pettymys, harmi, että Apple ei salli TensorFlow'n käyttää hermomoottoria

Yllä olevan tuloksen perusteella se voisi olla hyvä kone vahvistusoppimiseen, verkkoalueeseen, jossa hermoverkko on pieni ja CPUGPU-viestintää on paljon X

Xiao_Xi

27. lokakuuta 2021
  • 31. lokakuuta 2021
ingambe sanoi: harmi, että Apple ei salli TensorFlow'n käyttää hermomoottoria Laajenna napsauttamalla...
Tensorflow ja Pytorch ovat avoimen lähdekoodin projekteja. Joten Apple voisi tarjota heille Metal-taustajärjestelmän, kuten se tekee Blenderillä, avoimen lähdekoodin 3D-tietokonegrafiikkaohjelmistolla.

Muuten, vaikuttaa siltä, ​​että Neural Engine on hieman hankala käyttää. https://github.com/hollance/neural-engine THE

leman

14. lokakuuta 2008
  • 31. lokakuuta 2021
ingambe sanoi: Minun on sanottava, että yllä oleva vertailuarvo on hieman pettymys, harmi, että Apple ei salli TensorFlow'n käyttää hermomoottoria Laajenna napsauttamalla...

Hermomoottorin käyttötarkoitus on rajoitettu. Todellinen syväoppimisen kiihdytin on AMX-yksikkö, mutta on epäselvää, sisältääkö Pro/Max enemmän AMX-resursseja. minä

ingambe

22. helmikuuta 2020
  • 31. lokakuuta 2021
Xiao_Xi sanoi: Tensorflow ja Pytorch ovat avoimen lähdekoodin projekteja. Joten Apple voisi tarjota heille Metal-taustajärjestelmän, kuten se tekee Blenderillä, avoimen lähdekoodin 3D-tietokonegrafiikkaohjelmistolla.

Muuten, vaikuttaa siltä, ​​että Neural Engine on hieman hankala käyttää. https://github.com/hollance/neural-engine Laajenna napsauttamalla...
Näyttää siltä, ​​​​että Apple työskentelee Googlen ja Facebookin kanssa metallisen taustajärjestelmän hankkimiseksi Tensorflowlle (jo on jo) ja Pytorchille (näyttää siltä, ​​​​että WIP). Jos se kuitenkin käyttää vain GPU-kiihdytystä (kuten Tensorflow'n tapauksessa tällä hetkellä), emme ehkä saa uraauurtavaa suorituskykyä. Se voi olla mukavaa yhdelle aikakaudelle (eli prototyyppien tekemiseen), mutta ei suuriin mallikoulutukseen.
Olisi valtavaa, että kehittäjä saa käyttää AME:tä, mutta en näe Applen tekevän tätä lähitulevaisuudessa, toivottavasti olen väärässä...

Tämä repo on erittäin mielenkiintoinen, kiitos jakamisesta Reaktiot:toimenpiteet, dgdosen ja CarbonCycles J

JimmyjamesEU

28. kesäkuuta 2018
  • 31. lokakuuta 2021
leman sanoi: Neuraalimoottorilla on rajoitettu tarkoitus. Todellinen syväoppimisen kiihdytin on AMX-yksikkö, mutta on epäselvää, sisältääkö Pro/Max enemmän AMX-resursseja. Laajenna napsauttamalla...
Saatat pitää tämän mielenkiintoisena.

https://twitter.com/i/web/status/1453035362591420419
Reaktiot:ingambe, leman ja CarbonCycles C

Carbon Cycles

15. toukokuuta 2014
  • 31. lokakuuta 2021
leman sanoi: Ei, AMX ja AME ovat kaksi eri asiaa. Hämmentävä asia on, että Apple tarjoaa kolme tapaa tehdä ML: n laitteistollaan: AME, AMX ja GPU. AME näyttää rajoittuvan tehtäviin, kuten äänen- ja kuvankäsittelyyn, joita Apple käyttää sovelluksissaan, AMX on yleiskäyttöinen matriisin kertolasku (sopii mallin oppimiseen) ja GPU on joustavin, mutta myös vähiten tehokas näistä kolmesta. Laajenna napsauttamalla...
Jossain ei ole järkeä ... näyttää siltä, ​​​​että AMX on sotkettu matemaattinen apuprosessori, mutta kuinka se on tehokkaampaa kuin GPU: n käyttö? Jotain muuta on pelissä (eli he rakensivat LApackin/BLAS:n suoraan laitteiston ohjesarjoihin?!?)

JA:
Kun olet lukenut AMX-approsessoria käsittelevän artikkelin, se on järkevämpää, koska he ovat virittäneet nämä matemaattiset kirjastot AMX: hen. Jotenkin häiritsevää kuitenkin... Apple voi todella sotkea tämän ekosysteemin kanssa, koska se on suljettu (eli Applen pieni salaisuus). Viimeksi muokattu: 31.10.2021
  • 1
  • 2
  • 3
  • 4
Seuraava

Mene sivulle

MennäSeuraava Kestää