Een maat voor de subjectieve informatie-inhoud van geluiden?

ProgHead

Gepokt en gemazeld
Lid sinds
26 februari 2019
Berichten
5.516
Locatie
Zeist
Volgens de wiskundige definitie van informatie-inhoud bevatten ons niets zeggende signalen zoals witte ruis veel informatie. Dat is echter niet zoals wij dat bij het horen van witte ruis ervaren. Om recht te doen aan onze beleving van de informatie-inhoud van geluiden is dus een andere maat gewenst. Nu heeft men bijvoorbeeld voor geluidsvolume de decibel ingevoerd. De vraag van dit topic is of er eveneens iets dergelijks voor de ervaren informatie-inhoud van geluiden (en muziek) bestaat of kan worden ontwikkeld.
 
De vraag is of we inderdaad geen informatie-inhoud ervaren bij witte ruis. Het legt bijvoorbeeld een mentale link naar een radio tussen 2 kanelen of een oude CRT TV die niet goed staat afgestemd op een kanaal. Je legt dus een link, cq beleving, met ervaringen waar je zo'n geluid hoorde. Ook is witte ruis de bron van talloze effect- en percussiegeluiden, al is hier dan meestal sprake van filtering, vaak met een envelope. Paarse ruis klinkt bijvoorbeeld als regen, rode ruis is een soort rumble. Witte ruis klinkt soms als wind of water. Ook het feit dat beleving subjectief en dus voor iedereen anders is lijkt me een complicerende factor als je dit zou willen vangen in een grootheid.
 
Wat ik (ongeveer) in het andere draadje schreef:

Als er al zo'n maat is, het zal op dit moment nog niet heel nauwkeurig zijn. We weten goed hoe de menselijke perceptie werkt met geluid, maar zou je hetzelfde willen voor subjectieve informatie-inhoud dan zit je op het niveau hoe de hersenen zelf deze informatie verwerken. Daar weten we nog te weinig van om daar echt iets met zekerheid over te kunnen zeggen, vermoedelijk.

ProgHead schreef: "een zekere standaardvorm die voor het gehoor niet van het oorspronkelijke signaal te onderscheiden is. De gezochte maat voor de subjectieve informatie-inhoud hoef je dan enkel nog voor in standaardvorm gebrachte signalen uit te vogelen"

Een "standaardvorm" van witte ruis zal nog steeds in hoge mate lijken op witte ruis zelf. En daarmee behoorlijk afwijken van stilte, terwijl de bedoeling was dat zo'n maat voor die twee gevallen hetzelfde zou zijn, namelijk een hele lage subjectieve informatie-inhoud. Uiteindelijk zul je in het hoofd moeten kijken, want zowel in het geval van stilte en witte ruis zullen de hersenen niet veel "doen" daarmee. Dat zou je eigenlijk moeten meten, wellicht zou je een scala van "standaardvormen" kunnen blootstellen aan een proefpersoon en een MRI maken om die hersenactiviteit te meten, oid. Heel nauwkeurig zal het dan nog niet zijn, waarschijnlijk.


Ter aanvulling, het lijkt me moeilijk om op dit moment zo'n maat van subjectieve informatie-inhoud te ontwikkelen. Vermoedelijk is dit intiem verbonden hoe onze hersenen met aangeboden informatie omgaat. Een nauwkeurig model hoe dit werkt is nog ver weg, op dit moment. Hooguit indirect zou je dit kunnen vaststellen. Het is ook wat anders dan subjectieve maten voor bv. volume, toonhoogte, enz. Want dit zijn fysieke eigenschappen en zoiets als informatie is dat niet. Dat is in beginsel een wiskundige constructie, en hier willen we dan ook nog een subjectieve vorm daarvan. Dat zal nog niet meevallen.
 
De vraag is (...) lijkt me een complicerende factor als je dit zou willen vangen in een grootheid.

Ja, de subjectieve beleving is voor iedereen weer anders, als je al een model zou hebben van wat er tussen onze oren gaande is, dan krijg je hooguit een soort "gemiddelde". Ik denk wel dat, als je zo'n model hebt, verschillende ruis-"kleuren" en ruis met verschillende envelopes e.d. goed zal worden weergegeven.
 
De vraag is of we inderdaad geen informatie-inhoud ervaren bij witte ruis. Het legt bijvoorbeeld een mentale link naar een radio tussen 2 kanelen of een oude CRT TV die niet goed staat afgestemd op een kanaal. Je legt dus een link, cq beleving, met ervaringen waar je zo'n geluid hoorde. Ook is witte ruis de bron van talloze effect- en percussiegeluiden, al is hier dan meestal sprake van filtering, vaak met een envelope. Paarse ruis klinkt bijvoorbeeld als regen, rode ruis is een soort rumble. Witte ruis klinkt soms als wind of water. Ook het feit dat beleving subjectief en dus voor iedereen anders is lijkt me een complicerende factor als je dit zou willen vangen in een grootheid.

Er zitten inderdaad haken en ogen aan zoals er ook aan de dB voor geluidsvolume haken en ogen zitten, dat ervaart ook niet iedereen hetzelfde. Niettemin verschillen mensen nu ook weer niet zoveel dat de dB verstrekt ontoereikend is. Iets soortgelijks hoop ik te vinden voor de informatie-inhoud van geluiden. Maar wat voor specifieke associaties iemand met bepaalde geluiden heeft valt daarbuiten, het gaat mij om de hoeveelheid informatie, niet om de aard daarvan.
 
De decibel is in elk geval objectief meetbaar, ik weet niet of dat voor informatie-inhoud ook zou gelden. De hoeveelheid informatie lijkt me objectief bepaald door de resolutie (aantal eenheden per tijdseenheid), frequentie (minimale en maximale toonhoogte) en dynamiek (verschil tussen minimale en maximale amplitude).
 
Wat we nu nog in de definitie moeten meenemen is het eindige onderscheidingsvermogen van het menselijk gehoor. Maar eerst hoe gaat het in de wiskundige definitie? Je bekijkt bijvoorbeeld een binair getal van drie bits. Daar zijn er 2[SUP]3[/SUP] van. Voor het presenteren van een n-bits getal moet je dus uit 2[SUP]n[/SUP] mogelijke opties kiezen. Dus kun je via een n-bits getal ook 2[SUP]n[/SUP] verschillende (gecodeerde) berichtjes versturen.

En nu de akoestische versie: Ieder welomschreven type geluid A bepaalt een bijhorende verzameling geluiden V(A) zodanig dat alle geluiden van het type A tot de verzameling V(A) behoren en geen enkel geluid dat niet van het type A is tot de verzameling V(A) behoort. Laat nu N(A) het aantal verschillende geluiden zijn dat iemand met een modaal gehoor in de verzameling V(A) kan onderscheiden. Dan speelt N(A) hier dezelfde rol als het aantal binaire getallen bij de wiskundige definitie van informatie-inhoud! Eventueel neemt men daar vervolgens dan nog de logaritme van om de al te grote aantallen een kopje kleiner te maken.

Dus te spreken van de informatie-inhoud van een enkel geluid heeft niet veel zin. De geboden definitie geeft een maat voor de informatie-inhoud van een zeker type geluiden. En dat type waarvan men de informatie-inhoud wil weten kan men zelf kiezen zolang het maar scherp omschreven is.
 
Laatst gewijzigd:
Behalve voor stilte (volume = 0) is het handig om uit te gaan van één standaardvolume voor alle beschouwde geluiden. En dan vind je met de boven gegeven definitie voor witte ruis en stilte (zoals gewenst) dezelfde subjectieve informatie-inhoud.
 
De vraag van dit topic is of er eveneens iets dergelijks voor de ervaren informatie-inhoud van geluiden (en muziek) bestaat of kan worden ontwikkeld.

Er zijn vele verschillende decibel schalen en alle dekken ze een objectieve beoordeling van geluid.

'informatie-inhoud' = energy
Dan zou decibel toch toereikend moeten zijn.
en denk dat het antwoord op je vraag nee is.

je kan toch niet naar een spectogram kijken en de muziek correct inbeelden?

Wat je wel kunt doen is bepaalde informatie meten.
denk dat een spectogram dat goed doet.

Maar voor muziek zul je muziek theorie als basis moeten nemen en daar gast het tegelijk fout. Want alles wat niet in de de theorie voor komt zou dan geen muziek zijn.

Noten per min
bpm
Mineur
Majeur
Etc etc.....

Allemaal data die je uit een spectogram kunt halen (fft)

AI is in staat om geluid te beoorden wat het werkelijk is. Akkoorden, basdrum, fluit ruis stilte etc.....

Ik snap eigenlijk vrij weinig wat er hier besproken word. Dus als ik er helemaal naast zit :D
 
(...)Ieder welomschreven type geluid A bepaalt een bijhorende verzameling geluiden V(A) zodanig dat alle geluiden van het type A tot de verzameling V(A) behoren en geen enkel geluid dat niet van het type A is tot de verzameling V(A) behoort. Laat nu N(A) het aantal verschillende geluiden zijn dat iemand met een modaal gehoor in de verzameling V(A) kan onderscheiden. Dan speelt N(A) hier dezelfde rol als het aantal binaire getallen bij de wiskundige definitie van informatie-inhoud! Eventueel neemt men daar vervolgens dan nog de logaritme van om de al te grote aantallen een kopje kleiner te maken.

Dus te spreken van de informatie-inhoud van een enkel geluid heeft niet veel zin. De geboden definitie geeft een maat voor de informatie-inhoud van een zeker type geluiden. En dat type waarvan men de informatie-inhoud wil weten kan men zelf kiezen zolang het maar scherp omschreven is.

Dat geeft dus slechts een experimentele maat voor een beperkt aantal geluiden, wat niets hoeft te zeggen over al die andere geluiden die je niet meeneemt. Erg zinvol als maat voor subjectieve informatie-inhoud is het dan niet, als ik met een ander geluid kom dat je niet hebt getest. Je moet dan opnieuw een experiment uitvoeren, want op voorhand op theoretische gronden valt er weinig over te zeggen. Daarvoor weten we te weinig hoe ons brein werkt.
 
Dat geeft dus slechts een experimentele maat voor een beperkt aantal geluiden, wat niets hoeft te zeggen over al die andere geluiden die je niet meeneemt. Erg zinvol als maat voor subjectieve informatie-inhoud is het dan niet, als ik met een ander geluid kom dat je niet hebt getest. Je moet dan opnieuw een experiment uitvoeren, want op voorhand op theoretische gronden valt er weinig over te zeggen. Daarvoor weten we te weinig hoe ons brein werkt.

Met mijn opzet gaat het over wat het menselijk gehoor kan onderscheiden. Doordat de resolutie van het menselijk gehoor beperkt is wordt het continuüm van alle mogelijke geluiden in een groot maar eindig aantal gebiedjes opgedeeld zodanig dat per gebiedje alle geluiden voor ons gehoor exact hetzelfde klinken en de geluiden uit verschillende gebiedjes ook verschillend klinken. Op de grenzen tussen gebiedjes liggen dan de twijfelgevallen. Het geheel van alle mogelijke hoorbare geluiden kan dus op een dergelijke wijze in deelgebiedjes worden opgedeeld, waarbij de kennis van de psychoakoestiek goede diensten kan bewijzen. Wil je nu weten wat de subjectieve informatie-inhoud van een zeker type A van geluiden is, dan hoef je enkel te bekijken hoeveel van de boven gedefinieerde deelgebiedjes binnen de verzameling V(A) vallen.

Ik merk ook dat de benaming subjectieve informatie-inhoud verwarring schept. Tips voor een betere naam hoor ik dan ook graag.
 
Ja, de term subjectieve informatie-inhoud dekt de lading misschien niet helemaal goed. In mijn beleving slaat subjectief uiteindelijk op hoe de hersenen informatie verwerken, en het is lastig om daar iets mee te doen. Kunnen we het psychoakoestieke informatie-inhoud noemen? Dat maakt het eenvoudiger om in de praktijk er iets mee te kunnen doen. Een geschikt psychoakoestiek model moet dan kunnen voorspellen in hoeverre een stukje audio kan worden gecomprimeerd, zodat de meeste mensen dit nog niet ervaren als een significant verschil met het ongecomprimeerde originele geluid. Zoiets, in grote lijnen?
 
De term psychoakoestieke informatie-inhoud is inderdaad beter. Ik zal daar nu dan ook op overstappen. Verder moeten we nog een standaardduur voor de beschouwde geluiden afspreken. Ik denk aan 1 sec.

Je kunt mijn definitie inderdaad herformuleren op grond van de compressie van audiobestanden. Laat C een hypothetisch voorbeeld zijn van de theoretisch maximaal haalbare compressie dus waarbij de modale luisteraar het verschil met het originele geluid nog net niet kan horen. Als nu g een geluid is dan schrijven we het met behulp van C gecomprimeerde (en weer gereproduceerde) geluid voor het gemak als C(g). Voor ieder willekeurig geluid h zijn er dan ook andere geluiden h' zodat h en h' tot hetzelfde (gereproduceerde) geluid worden gecomprimeerd. Die bestanden h' waarvoor dat het geval is (d.w.z. waarvoor: C(h’) = C(h) ) inclusief h zelf leveren ons dan het gebiedje van geluiden die voor het gehoor niet van h te onderscheiden zijn. Omdat h willekeurig gekozen kan worden wordt op deze wijze heel het continuüm van hoorbare geluiden in gebiedjes van niet te onderscheiden geluiden opgedeeld. Voor het gemak noemen we dergelijke gebiedjes vanaf nu no-gebiedjes (van: niet te onderscheiden). De psychoakoestieke informatie-inhoud van een geluidstype A is dan eenvoudig het aantal no-gebiedjes dat door de verzameling V(A) wordt bestreken.

Waaruit we zien dat mijn definitie teruggrijpt op kennis en technologie die (grotendeels) al bekend en aanwezig is. Het lijkt me dan ook onwaarschijnlijk dat niemand eerder op deze definitie voor de psychoakoestieke informatie-inhoud gekomen is.
 
flyweight

Kun je aangeven wat je precies aan de definitie niet begrijpt. Misschien komen we dan verder?

ik snap niet welk probleem je wilt oplossen. wat wil je dan precies weten?
wil je ieder stuk in een audio signaal kunnen catagorizeren in een hoeveelheid informatie?
 
Ik begon hierover na te denken omdat in een ander topic het punt ter sprake kwam dat witte ruis wiskundig gesproken als een zeer informatierijk signaal geldt, terwijl dat voor het menselijk gehoor juist helemaal niet zo is. De gebruikelijke wiskundige maat voor informatie-inhoud sluit dus slecht aan op hoe wij dat psychoakoestisch ervaren. En zo kwam ik ertoe om uit te vogelen of er een alternatieve maat voor informatie-inhoud denkbaar is die beter aansluit op de menselijke geluidsperceptie.

Het praktisch nut staat bij mij zelden of nooit voorop, hoewel dat er vast wel zal zijn als deze alternatieve maat praktisch handen en voeten gegeven kan worden.
 
Ik begon hierover na te denken omdat in een ander topic het punt ter sprake kwam dat witte ruis wiskundig gesproken als een zeer informatierijk signaal geldt, terwijl dat voor het menselijk gehoor juist helemaal niet zo is.

Het is mogelijk om dit probleem op te lossen zonder psychoakoestiek. Naast entropie bereken je ook de complexiteit. Witte ruis heeft een hoge entropie, maar een lage complexiteit. Relevante papers zijn bv. deze (gaat over de toepassing ervan met muziek) en deze (gaat over een hele andere toepassing). En er is nog veel meer over te vinden. Interessant is ook dat dit bruikbaar is om uit te maken of een signaal stochastisch of chaotisch is.
 
Wanneer je geïnteresseerd bent in de classificatie van songs in muziektypes lijkt die aanpak via entropie en complexiteit inderdaad handiger dan mijn definitie. Maar ik zie die aanpak niet als een alternatief, maar meer als een andere tak van sport. Het gaat mij om geluiden van pakweg 1 sec.
 
Back
Top