Een maat voor de subjectieve informatie-inhoud van geluiden?

In dit geval is classificatie een toepassing van deze methode, ook bij geluiden van arbitraire lengte zal de uitkomst evengoed een punt zijn in het entropie/complexiteit-vlak. In elk geval is het probleem van stilte en witte ruis hiermee opgelost, met entropie op de x-as en complexiteit op de y-as kom je in het eerste geval uit op het punt helemaal linksonder in het vlak, in het tweede geval rechtsonder.

Je kunt hier verder aan sleutelen, voor entropie is er keuze genoeg aan maten. Maar wat misschien interessanter is, de maat voor complexiteit. Men gebruikt daarvoor ook wel de Lempel-Ziv-complexiteit, met het Lempel-Ziv-algoritme voor datacompressie. Dat zou je kunnen vervangen door een compressiealgoritme op basis van de psychoakoestiek.
 
Ter aanvulling op het voorgaande, waar ik nog aan moest denken is de Kolmogorov-complexiteit als mogelijke maat. Dus de maat van complexiteit is de lengte van een computerprogramma die een gegeven geluidsfragment kan produceren. In het geval van stilte kan zo'n programma erg kort zijn, in het geval van witte ruis zal het programma niet korter zijn dan het fragment zelf. Je zou een vorm van genetic programming kunnen gebruiken om goede benaderingen van zulke programma's te vinden, het zal waarschijnlijk wel erg rekenintensief zijn.
 
Ik vind het wel essentieel dat voor ons gehoor niet te onderscheiden geluiden door de ontwikkelde maat ook niet als wezenlijk verschillend worden gerekend. Dat is namelijk het hele punt hier, dat we alle stilte eenvoudig als stilte horen en alle witte ruis eenvoudig als witte ruis. Meer informatie bevatten die twee types geluiden (stilte en witte ruis) voor ons eenvoudig niet.
 
Het product van entropie en complexiteit geeft dat eigenlijk al aan, toch?

Dat kan, zo kom je van een tweedimensionale tot een eendimensionale maat. En dan moet je nog ergens bijvoorbeeld een op het menselijk gehoor afgestemd compressiealgoritme in stoppen wat er dan een menselijke maat van maakt.
 
Ja, voor de complexiteit grote kans dat dit al bestaat, en anders hopelijk niet heel moeilijk om te construeren, via de route van compressie i.h.k. van de psychoakoestiek. Misschien ook iets dergelijks voor de entropie.

Dan is het niet gek dat je het als een ééndimensionale maat kunt formuleren. De praktijk laat zien dat voor veel toepassingen aardig veel audio-features nodig zijn, om datgene weer te geven wat je uit een stuk gegeven geluid wilt halen. Dus één enkel getal dat dit kan weergeven, best goed.
 
Met mijn opzet gaat het over wat het menselijk gehoor kan onderscheiden. Doordat de resolutie van het menselijk gehoor beperkt is wordt het continuüm van alle mogelijke geluiden in een groot maar eindig aantal gebiedjes opgedeeld zodanig dat per gebiedje alle geluiden voor ons gehoor exact hetzelfde klinken en de geluiden uit verschillende gebiedjes ook verschillend klinken. Op de grenzen tussen gebiedjes liggen dan de twijfelgevallen. Het geheel van alle mogelijke hoorbare geluiden kan dus op een dergelijke wijze in deelgebiedjes worden opgedeeld, waarbij de kennis van de psychoakoestiek goede diensten kan bewijzen. Wil je nu weten wat de subjectieve informatie-inhoud van een zeker type A van geluiden is, dan hoef je enkel te bekijken hoeveel van de boven gedefinieerde deelgebiedjes binnen de verzameling V(A) vallen.

Ik merk ook dat de benaming subjectieve informatie-inhoud verwarring schept. Tips voor een betere naam hoor ik dan ook graag.

Is dit een soort semantische 1 april grap of is deze hele draad gegenereerd met een random pseudo-logica generator? :stupid
 
AdDM Het is serieus bedoeld. Ik zou het ook beknopter kunnen formuleren met behulp van begrippen uit de verzamelingenleer zoals partities e.d. maar dat heb ik expres al achterwege gelaten omdat het daarvan voor de niet wiskundig geschoolden onder ons nog veel onbegrijpelijker had geworden....
 
Ik verwacht op z'n minst een doorbraak vergelijkbaar met de granulaire synthese compleet met een geheel nieuwe lijn van synthesizers en daarop gebaseerde nieuwe muziekstromingen. :P
 
Weer even terug naar het onderwerp. Heb wat papers doorgelezen nav. dit draadje over psychoakoestiek en compressie, ik zie nog niet zo dat het eenvoudig is om bestaande methoden (zoals bij MP3, AAC, etc.) hiervoor te gebruiken. Sommige elementen misschien wel, maar andere (bv. temporal masking) lijken gebonden aan een zekere tijdsduur en dat maakt het waarschijnlijk moeilijk om het te schalen naar arbitraire tijdsduren. Daar valt misschien wel iets op te verzinnen om dit soort problemen te omzeilen, maar het kan nog lastig zijn. Papers die interessant zijn, deze en deze.

Ik vraag me trouwens af in hoeverre een psychoakoestische methode voor het bepalen van entropie en complexiteit een groot verschil zou maken, in vergelijking met een "gewone" methode. Kan wellicht afhangen van de toepassing.

Ik verwacht op z'n minst een doorbraak vergelijkbaar met de granulaire synthese compleet met een geheel nieuwe lijn van synthesizers en daarop gebaseerde nieuwe muziekstromingen. :P

O, niet meer dan dat? Zal er 'ns op een zondagmiddag naar kijken als ik niks anders te doen heb. :P
 
Heb de papers gedownload, maar het lezen zal nog even duren want ik ben nog bezig met al mijn gedownloade plug-ins.

Dat opschalen naar langere tijden dan pakweg 1 seconde lijkt mij eigenlijk ook helemaal niet gewenst. Dat brengt maar nieuwe factoren in het spel zoals de opbouw van een song, etc. De maat voor het geluidsvolume (de dB) houdt zich ook niet bezig met dergelijke temporale en muzikale aspecten. En dat wilde ik voor mijn maat voor de psychoakoestieke informatie-inhoud van geluiden eigenlijk ook niet doen. Dat zou alles veel te ingewikkeld maken en dan moet je er ook muziektheorie bij halen. Het zou naar mijn idee primair om (korte) geluiden moeten gaan, en enkel voor zover muziek uit geluiden bestaat (dus indirect) ook over muziek.
 
Ik heb de papers even vluchtig doorgekeken. Je zou voor iedere compressiemethode een bijbehorende psychoakoestieke informatie-inhoud kunnen definiëren. Des te beter de compressiemethode des te beter de daardoor gedefinieerde psychoakoestieke informatie-inhoud. Stel nu eens dat alle hoorbare geluiden van 1 sec van een zeker type A (bijvoorbeeld de zuivere sinustonen) na compressie in maximaal N(A) verschillende gecomprimeerde bestandjes worden opgeslagen. Dan doet men door het ten gehore brengen van een geluid van type A indirect een keuze uit N(A) hoorbaar verschillende opties. Dus is N(A) een maat voor de psychoakoestieke informatie-inhoud van geluiden van het type A. Desgewenst kan men van dat aantal nog de logaritme nemen om de uitkomsten wat meer binnen de perken te houden. En deze maat is exacter naarmate de gebruikte compressiemethode zonder hoorbare verschillen meer compressie oplevert.
 
Laatst gewijzigd:
Kan zijn dat een goed psychoakoestisch model al voldoende is, zonder dat je alle mogelijke geluiden in typen moet indelen. Want dat lijkt me wat problematisch. Kijk 'ns naar variable bitrate compressie voor audio, dan krijg je automatisch al meer/minder compressie bij een gegeven geluid.
 
Je hoeft ook niet alle mogelijke geluiden in typen in te delen, maar enkel de soorten van geluiden waarin je geïnteresseerd bent. Laten we ons voor het gemak bepalen tot wav-bestandjes met 1 sec geluid van CD-kwaliteit. Je kunt uitrekenen hoeveel van dergelijke bestandjes er (in principe) bestaan. Noem dat totale aantal M (van maximale aantal). Stel nu eens dat je geïnteresseerd bent in een bepaald type geluid, bijvoorbeeld witte ruis. Dan zal slechts een deel van die in totaal M wav-bestandjes bij afspelen witte ruis opleveren. En met die wav-bestandjes van het witte ruis type ga je verder. Om mijn psychoakoestieke informatie-inhoud te kunnen gebruiken hoef je dan ook enkel een compressiemethode te kiezen en te weten welke wav-bestandjes bij afspelen onder het type geluid vallen waarvan je de psychoakoestieke informatie-inhoud wilt bepalen.


Een enkel geluid levert bij compressie ook steeds maar een enkel gecomprimeerd bestandje op, dus is de psychoakoestieke informatie-inhoud daarvan steeds 1 (of 0 bij het nemen van de logaritme). Vandaar dat ik het liever heb over de informatie-inhoud van een type geluid, dat levert over het algemeen interessantere resultaten op.
 
Maar hoe ga je precies bepalen welk geluiden vallen onder het type waarin je geïnteresseerd bent, en welke niet? Het kan al een probleem zijn om precies de lijn te trekken wat witte ruis is, en wat niet. Hetzelfde probleem speelt met bv. met een true random number generator, ook bij een uitstekende generator zal deze af en toe falen als je daar een statistische test op loslaat. En een tweede probleem is dat mogelijk geluiden die psychoakoestisch vallen onder witte ruis (het klinkt voor menselijke oren als zodanig, terwijl formeel wiskundig gezien dat niet zo is) buiten de boot vallen omdat je die bij de eerste selectie niet meeneemt.
 
Back
Top